LRQ: Optimizing Post-Training Quantization for Large Language Models by Learning Low-Rank Weight-Scaling Matrices阅读笔记

motivation

  • 仅权重量化只在小batch推理时加速才明显,权重激活量化则精度下降太多。
  • 众多方法中SmoothQuant和FlexRound都使用了硬件有好的per-tensor静态量化,但前者精度下降过高,后者因为要学习过多参数泛化性能不够好(MMLU上表现不够理想)。

创新点:权重矩阵低秩分解

权重分解核心公式:

屏幕截图2025-03-18002232.png

其中相乘后得到与权重维度的矩阵,,为行/列向量,收低秩矩阵在推荐系统中的应用启发。

最终目标为最小化块量化损失屏幕截图2025-03-18002909.png