OSTQuant

发表于2025-03-06|更新于2025-03-14

|浏览量:

OSTQuant: Refining Large Language Model Quantization with Orthogonal and Scaling Transformations for Better Distribution Fitting阅读笔记

motivation

现有LLM量化面临两大挑战：
- LLM的权重与激活值通常具有非对称、重尾分布特征以及通道间方差差异。
- 校准集较小，传统损失函数（如交叉熵）容易在小样本下过拟合
现有改善数据分布的方法依赖启发性设计，缺乏系统性评估。

创新点1：量化空间利用率（QSUR）

对于原始数据占据的超体积，可以看作一个由协方差矩阵决定的椭圆形。对于一个d维的数据，其超体积计算公式为

其中是椭球体半轴长度的连乘，卡方分布的引入，使其在给定置信水平 α 下能够包含相应比例的数据点。
量化空间的体积由数据沿着主轴的极值点决定，公式：

其中 $、$ 为对应于相应特征值的特征向量，个人猜测最小特征值前面应该有个负号（？）。
则QSUR可定义为原始数据体积与量化空间体积的比值：

PS：个人理解这是似乎应该是加号(?)，然后忽略平均向量，假设最大最小特征值绝对相等，可简化为
应用：
- 在激活X上施加变换T可表示为，其中Q是特征向量的单位正交矩阵，当是，QSUR达到最大，c可以为任意常量。

创新点2：缩放旋转对

定义变换对，其中为对角矩阵负责缩放；O为正交矩阵负责旋转，O使用一阶梯度进行优化。
使用权重异常值最小化初始化（WOMI）
- 使用初始化O，d是维度数，H是全由组成的正交矩阵。
- 对于作用于所有残差路径的全局矩阵，将所有与残差有关的层沿着输入通道拼接再对协方差矩阵特征值分解得到特征值矩阵，然后用，其中H是标准化的Hadamard矩阵。
- 对于O-proj和V-proj层的旋转矩阵按照头的维度切分再仿照初始化。
- 对角矩阵用单位矩阵初始化。

屏幕截图2025-03-06022851.png

创新点3：KL-TOP损失函数

大语言模型词汇量多，预测结果呈严重长尾分布，直接应用 KL 散度进行优化，损失可能被低概率的无信息类别主导，为训练过程引入噪声。
KL-TOP仅计算预测概率最高的前k个类别的KL散度，避免低概率噪声对梯度更新的干扰。
公式：

其它

WikiText2上W4A4的结果要比DuQuant好

文章作者: Wotoosh

文章链接: https://wotoosh.github.io/2025/03/06/OSTQuant/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源由本自性清净故，令诸爱染悉无垢！

相关推荐

BCQ: Block Clustered Quantization for 4-bit (W4A4) LLM Inference阅读笔记创新点1：将向量聚块量化对于一个有元素的向量，将连续个元素分为一个块，用个密码本进行量化整个量化过程分为两步：第一步为每个块分配一个密码本用于量化，第二步在相应密码本里寻找每个元素用于量化的条目。每个块可视为一个array，共享一个缩放参数，每个向量有一个缩放参数，将量化到位。最终该方法占用的实际位宽为：创新点2：局部最优块聚类量化算法最初利用Kmeans++算法初始化密码本中的元素，固定密码本，根据MSE寻找每个块的最优密码本，即：再固定密码本选择策略，利用LloydMax算法为每个密码本寻找最优元素，反复迭代直至收敛或达到指定次数。

BoA: Attention-aware Post-training Quantization without Backpropagation阅读笔记motivation基于梯度的重建优化方法受参数规模限制难以迁移到大语言模型上，传统的基于变换的量化方法又欠考虑了层间关系，因此提出了一种无需BP，综合考虑QKVO层相互依赖的量化方法。创新点1：基于QKVO层相互依赖的重建优化方法本方法于GPTQ类似，在量化后对其余未量化权重进行更新以补偿量化损失，更新公式：其中H是Hessian矩阵，Chol(·)代表Cholesky分解，因此U是上三角矩阵且为了弥补GPTQ的Hessian估计方法只与输入有关，与注意力模块其他层无关的问题，本方法提出了新的Hessian估计方法：推导主要利用了对于的二阶导是，其中J为关于softmax函数的Jacobian矩阵。创新点2：高效实现relaxed...

CBQ: Cross-Block Quantization for Large Language...

FlexRound: Learnable Rounding based on Element-wise Division for Post-Training Quantization阅读笔记核心创新点：基于逐元素触发的灵活舍入提出一种新的权重舍入机制，S为与W相同形状的scale矩阵，其中的每个元素都是正且可学习的，其中的和都是通过最小化学习到的。由于层不同通道输出差异大，在实际应用时，对线性层还需引入；对2D卷积需引入和，最终量化公式：其它暂时还没想明白每个权重都配了一个scale辅助量化，量化后使用的内存不是更大了吗，有机会再研究一下。

KurTail : Kurtosis-based LLM Quantization阅读笔记motivation对于使用旋转矩阵来抚平outlier的方法，随机旋转矩阵不够优，端到端loss训练的学习旋转矩阵又太费计算资源，于是提出了一种聚焦于tail density（通常指的是概率分布尾部的概率密度，即随机变量取值在远离分布中心的区域的概率密度，它反映了分布尾部的“厚重”程度）的旋转矩阵学习方法。背景补充峰度表征概率密度分布曲线在平均值处峰值高低的特征数，直观看来，峰度反映了峰部的尖度。计算公式：正态分布峰度为3，大于3为正峰度，代表数据中有更多的极端值。主要创新点：基于峰度的旋转矩阵学习方法基于峰度的损失函数：其中，代表将第层所有激活进行拼接。采用逐层优化策略，首先运行原始模型并存储MHSA和FFN块的输入，然后创建一个只有一个线性层的小模型来模拟量化前的输入，最后使用Kurtosis损失函数训练旋转。为了进一步优化，在训练时将不同层的输入混在一起。为了在不量化的时候模型输出不变，旋转矩阵的学习需要在正交空间内进行优化，使用Caley...

LRQ: Optimizing Post-Training Quantization for Large Language Models by Learning Low-Rank Weight-Scaling Matrices阅读笔记motivation 仅权重量化只在小batch推理时加速才明显，权重激活量化则精度下降太多。众多方法中SmoothQuant和FlexRound都使用了硬件有好的per-tensor静态量化，但前者精度下降过高，后者因为要学习过多参数泛化性能不够好（MMLU上表现不够理想）。创新点：权重矩阵低秩分解权重分解核心公式：其中，、相乘后得到与权重维度的矩阵，、，为行/列向量，收低秩矩阵在推荐系统中的应用启发。最终目标为最小化块量化损失