AKVQ-VL

发表于2025-03-01|更新于2025-03-20

|浏览量:

AKVQ-VL: Attention-Aware KV Cache Adaptive 2-Bit Quantization for Vision-Language Models阅读笔记

motivation

认为现有KV Cache量化没有关注到多模态token间的显著性（saliency）区别
观察到多模态模型在初始层优先关注文本token（文本显著性注意力，TSA），而在后续层则关注少数关键token（关键token显著性注意力，PSA）。
与LLM都具有’local’ attention pattern，即都会更关注临近的token
与LLM不同，多模态模型PSA时的pivot token不光是开头的sink token，还有其他位置的token。

创新点1：显著性token识别

TSA层的显著token：text token和recent token。
PSA层的显著token：sink token（开头）和具有大激活值的token。
对于pivot token（PSA层显著token，recent token）使用fp16保存，对于text token使用4bit量化，其余量化至2bit，使用per token dynamic asymmetric quantization with clipping。

屏幕截图2025-03-01030612

创新点2：Walsh-Hadamard矩阵抹平outliers

受Quarot、Spinquant启发，可使用Fast WalshHadamard Transform (FWHT)加速计算，Value的等价变化可通过讲WH矩阵融入权重矩阵离线计算。
矩阵构造：
Key等价变换：

屏幕截图2025-03-01033902

Value等价变换：

屏幕截图2025-03-01033940

成就

第一个针对VLM的KV Cache量化工作，2bit几乎无损
reduce peak memory usage by 2.13×, support up to 3.25× larger batch sizes and 2.46× throughput.

文章作者: Wotoosh

文章链接: https://wotoosh.github.io/2025/03/01/AKVQ-VL/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源由本自性清净故，令诸爱染悉无垢！

相关推荐

AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding阅读笔记motivationtoken冗余度随时间（不同帧）和模型层数的变化大，需要动态分配压缩率的方法。创新点1：根据热点token比率衡量冗余性记注意力头个数，提示长度、视频token长度，对于第层，其注意力分数为，接着计算每个视频token头平均提示和注意力分数：最终热点token比率可定义为：其中为指示函数，p为常量，本方法使用0.01。创新点2：时间自适应压缩率分配将每帧看作一个块，其中每帧含有N个token。每个块中相邻帧的距离可以看作其中Sim(·)代表余弦相似度函数，对其求元素平均得到第i个块的平均帧距离，以表示该块内的时间冗余度，每块的压缩率最后为：其中是最终KV...

CASP: Compression of Large Multimodal Models Based on Attention Sparsity阅读笔记总结认为多模态模型的输入天然带有的冗余属性导致了其及其稀疏的attention map（与其backbone的LLM比较）。证明了attention map的稀疏性决定了、量化误差的上界，越稀疏上界则越小。低比特压缩但无需finetune，可适用于LMM和LLM。创新点1：基于数据感知与稀疏性的、低秩分解计算校准数据的协方差矩阵 C，然后通过 Cholesky 分解获得下三角矩阵 L。接着，将白化矩阵 A 定义为 L 的逆矩阵。通过将 A 应用到校准数据上，将数据白化，再利用白化数据计算 attention map。低秩分解后的 attention map：定义稀疏性为 attention map 中值高于阈值的比例，则优化目标为：创新点2：最优量化比特分配定义了块重要性分数：减轻过度稀疏带来的不利影响，采用熵正则化来实现平滑。其中是第层分配到的数。最终优化目标为：最优分配解：

MQuant: Unleashing the Inference Potential of Multimodal Large Language Models via Full Static Quantization阅读笔记motivation 多模态模型有大量视觉token，使得推理速度变慢，首token延迟变长，per-token dynamic quantization加剧了这个问题。不同模态间激活差异大，视觉token激活范围通常比文字token大，文字token激活范围通常接近0。 Hadamard 旋转会引入新outlier。创新点1：特定模态的静态量化（MSQ）对于不同模态使用不同的静态per-tensor scale，量化公式：创新点2：等价注意力变换（AIFS）为了避免重复对交错模态的输入进行处理，减少内存消耗，将所以视觉token移至最前将掩码由重定义为：创新点3：旋转幅度抑制（RMS）过往研究表明较低的不相干性 ...