PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models阅读笔记

总结

  • 过往研究多使用无结构的细粒度掩码来判断是否为显著(salient)权重,本方法改进为一维结构掩码,同一个通道使用同一个掩码,每个权重只需额外增加0.0002位。
  • 对于二值化的非显著权重,为了将隐含的行间相关性和角度偏差纳入考虑范围内,使用了以块为单位的优化策略。

  • 提出量化预处理的新范式,在量化前使用restorative LoRA对预训练模型进行处理,使得显著权重能够以行为单位聚集。

创新点1:显著性权重的结构性掩码

将激活看作列的集合因此量化误差可写作:

屏幕截图2025-03-16201542.png

这里的中的元素,行权重矩阵的量化误差上界与第个通道的激活大小有关,因此根据相应通道的激活值大小来判断选取显著性权重的通道。

创新点2:块状优化策略

使用MSE衡量数值偏差,使用余弦相似度衡量角度偏差,最终距离指标为:

屏幕截图2025-03-16202435.png

其中:

屏幕截图2025-03-16202835.png

其中为余弦相似度函数。

最终优化目标为:

屏幕截图2025-03-16202733.png

第一个分支旨在减小量化误差,第二个分支用于减小量化相同输入时的输出差异。

非显著权重反量化公式为:

屏幕截图2025-03-16202936.png

创新点3:量化预处理

LoRA论文中认为,当针对特定任务对模型进行微调时,权重补偿呈现低秩特性。这表明微调可能将重要信息补偿到权重矩阵的特定维度中,进而本文通过再预训练数据集上使用轻量级restorative LoRA对原始模型进行处理,从而使得显著权重集中到某些行,更加适宜于量化。