SVDQuant
SVDQuant: Absorbing Outliers by Low-Rank Component for 4-Bit Diffusion Models阅读笔记
motivation
LLM 的时延主要受权重加载的限制,但扩散模型则计算量较大,仅量化权重无法实际加速扩散模型
扩散模型的权重和激活都对于outlier很敏感,使得传统的将量化难度从激活转移至权重的方法走不通。
Proposition
误差分解
量化误差可分解为,其中F代表Frobenius范数(所有元素绝对值的平方和的平方根)。
量化误差界
对于形似所有
,其中size(R)是R中的元素数
创新点1:通过低秩分支吸收outlier
- 整体流程图
- 首先引入逐通道缩放参数
将outlier从激活转移至权重上。 - 接着引入残差分支,将权重转化为
,其中 ,在量化时低秩分支保持FP16,残差部分量化至4bit,即
量化误差可表示为:
由量化误差界可知量化误差受界于
创新点2:Nunchaku推理引擎
为了降低数据移动造成的内存开销,将
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 由本自性清净故,令诸爱染悉无垢!