SVDQuant: Absorbing Outliers by Low-Rank Component for 4-Bit Diffusion Models阅读笔记

motivation

  • LLM 的时延主要受权重加载的限制,但扩散模型则计算量较大,仅量化权重无法实际加速扩散模型

  • 扩散模型的权重和激活都对于outlier很敏感,使得传统的将量化难度从激活转移至权重的方法走不通。

Proposition

误差分解

量化误差可分解为屏幕截图2025-03-07014257.png,其中F代表Frobenius范数(所有元素绝对值的平方和的平方根)。

量化误差界

对于形似所有的量化过程中的向量R,假设 R 的元素服从正态分布,则有

屏幕截图2025-03-0652.png,其中size(R)是R中的元素数

创新点1:通过低秩分支吸收outlier

  • 整体流程图

屏幕截图2025-03-07012256.png

  • 首先引入逐通道缩放参数将outlier从激活转移至权重上。
  • 接着引入残差分支,将权重转化为,其中,在量化时低秩分支保持FP16,残差部分量化至4bit,即

屏幕截图2025-03-07013546.png

量化误差可表示为:屏幕截图2025-03-07013734.png

​ 由量化误差界可知量化误差受界于,使用奇异值分解法分解权重为,最优解即为

创新点2:Nunchaku推理引擎

为了降低数据移动造成的内存开销,将与量化内核融合,与计算内核融合。

屏幕截图2025-03-07020141.png