AKVQ-VL: Attention-Aware KV Cache Adaptive 2-Bit Quantization for Vision-Language Models阅读笔记

motivation

  • 认为现有KV Cache量化没有关注到多模态token间的显著性(saliency)区别
  • 观察到多模态模型在初始层优先关注文本token(文本显著性注意力,TSA),而在后续层则关注少数关键token(关键token显著性注意力,PSA)。
  • 与LLM都具有’local’ attention pattern,即都会更关注临近的token
  • 与LLM不同,多模态模型PSA时的pivot token不光是开头的sink token,还有其他位置的token。

创新点1:显著性token识别

  • TSA层的显著token:text token和recent token。

  • PSA层的显著token:sink token(开头)和具有大激活值的token。

  • 对于pivot token(PSA层显著token,recent token)使用fp16保存,对于text token使用4bit量化,其余量化至2bit,使用per token dynamic asymmetric quantization with clipping。

屏幕截图2025-03-01030612

创新点2:Walsh-Hadamard矩阵抹平outliers

  • 受Quarot、Spinquant启发,可使用Fast WalshHadamard Transform (FWHT)加速计算,Value的等价变化可通过讲WH矩阵融入权重矩阵离线计算。
  • 矩阵构造:屏幕截图2025-03-01033828
  • Key等价变换:

屏幕截图2025-03-01033902

  • Value等价变换:

屏幕截图2025-03-01033940

成就

  • 第一个针对VLM的KV Cache量化工作,2bit几乎无损

  • reduce peak memory usage by 2.13×, support up to 3.25× larger batch sizes and 2.46× throughput.