KurTail : Kurtosis-based LLM Quantization阅读笔记

motivation

对于使用旋转矩阵来抚平outlier的方法,随机旋转矩阵不够优,端到端loss训练的学习旋转矩阵又太费计算资源,于是提出了一种聚焦于tail density(通常指的是概率分布尾部的概率密度,即随机变量取值在远离分布中心的区域的概率密度,它反映了分布尾部的“厚重”程度)的旋转矩阵学习方法。

背景补充

峰度

  • 表征概率密度分布曲线在平均值处峰值高低的特征数,直观看来,峰度反映了峰部的尖度。
  • 计算公式:屏幕截图2025-03-12022247.png
  • 正态分布峰度为3,大于3为正峰度,代表数据中有更多的极端值。

主要创新点:基于峰度的旋转矩阵学习方法

  • 基于峰度的损失函数:

屏幕截图2025-03-12022530.png

其中,代表将第层所有激活进行拼接。

  • 采用逐层优化策略,首先运行原始模型并存储MHSA和FFN块的输入,然后创建一个只有一个线性层的小模型来模拟量化前的输入,最后使用Kurtosis损失函数训练旋转。为了进一步优化,在训练时将不同层的输入混在一起。
  • 为了在不量化的时候模型输出不变,旋转矩阵的学习需要在正交空间内进行优化,使用Caley Adam优化器来强制约束。