CASP: Compression of Large Multimodal Models Based on Attention Sparsity阅读笔记

总结

  • 认为多模态模型的输入天然带有的冗余属性导致了其及其稀疏的attention map(与其backbone的LLM比较)。
  • 证明了attention map的稀疏性决定了量化误差的上界,越稀疏上界则越小。
  • 低比特压缩但无需finetune,可适用于LMM和LLM。

创新点1:基于数据感知与稀疏性的低秩分解

  • 计算校准数据的协方差矩阵 C,然后通过 Cholesky 分解获得下三角矩阵 L。接着,将白化矩阵 A 定义为 L 的逆矩阵。通过将 A 应用到校准数据上,将数据白化,再利用白化数据计算 attention map。
  • 低秩分解后的 attention map:屏幕截图2025-03-14023026.png

  • 定义稀疏性为 attention map 中值高于阈值 的比例,则优化目标为:

屏幕截图2025-03-14023344.png

创新点2:最优量化比特分配

  • 定义了块重要性分数:屏幕截图2025-03-14023639.png
  • 减轻过度稀疏带来的不利影响,采用熵正则化来实现平滑。其中是第层分配到的数。最终优化目标为:

屏幕截图2025-03-14025327.png

  • 最优分配解:屏幕截图2025-03-14025412.png