SliceGPT

发表于2025-04-15|更新于2025-04-15

|浏览量:

SliceGPT: Compress Large Language Models by Deleting Rows and Columns阅读笔记

Transformer架构的计算不变性

传统Tranformer架构为：

屏幕截图2025-04-15110401.png

注意力模块QKV的分别投影可以看作拼接为后一起投影，整体前向传播过程可看作：

屏幕截图2025-04-15110838.png

对于RMSNorm，在归一化前乘正交矩阵，在归一化后乘，则其归一化后值不变。

即：

可通过如下矩阵变换将所有 $、$ 吸收进原本的模型参数中：

屏幕截图2025-04-15111317.png

LayerNorm变RMSNorm

LayerNorm到RMS的数学关系可看作：

屏幕截图2025-04-15113103.png

其中，则，其中为对每行的值求和，相当于LayerNorm的减均值。

将 $、$ 吸收进原本的模型架构中，其中来自前一层，也需转换为，则需根据最后一层layernorm的scale进行缩放。

屏幕截图2025-04-15142841.png

不同块采用不同的旋转矩阵

因为不同层的激活不同，其使用的旋转矩阵也不应相同。旋转矩阵的计算使用PCA方法，记第个RMSNorm块的有关校准集第个序列的激活为，计算i倍协方差矩阵，则是降序排列的特征向量。

为了保持计算不变性，对于残差分支也要施以的旋转矩阵。

屏幕截图2025-04-15145329.png

核心：权重裁剪

使用低维度矩阵Z代替原本的激活达到裁剪权重矩阵的目的，其中，和D乘相当于去掉了原本的一些列。在实际前向传播中，关于矩阵的降维通过直接裁剪的相应行和 $、$ 的相应列完成的，相对应的，也应裁剪去的相应行列。

屏幕截图2025-04-15145812.png

其它

KurTail就是延续了这里的计算不变性（computational invariance）框架。

文章作者: Wotoosh

文章链接: https://wotoosh.github.io/2025/04/15/SliceGPT/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源由本自性清净故，令诸爱染悉无垢！

相关推荐

Streamlining Redundant Layers to Compress Large Language...

BCQ: Block Clustered Quantization for 4-bit (W4A4) LLM Inference阅读笔记创新点1：将向量聚块量化对于一个有元素的向量，将连续个元素分为一个块，用个密码本进行量化整个量化过程分为两步：第一步为每个块分配一个密码本用于量化，第二步在相应密码本里寻找每个元素用于量化的条目。每个块可视为一个array，共享一个缩放参数，每个向量有一个缩放参数，将量化到位。最终该方法占用的实际位宽为：创新点2：局部最优块聚类量化算法最初利用Kmeans++算法初始化密码本中的元素，固定密码本，根据MSE寻找每个块的最优密码本，即：再固定密码本选择策略，利用LloydMax算法为每个密码本寻找最优元素，反复迭代直至收敛或达到指定次数。

BoA: Attention-aware Post-training Quantization without Backpropagation阅读笔记motivation基于梯度的重建优化方法受参数规模限制难以迁移到大语言模型上，传统的基于变换的量化方法又欠考虑了层间关系，因此提出了一种无需BP，综合考虑QKVO层相互依赖的量化方法。创新点1：基于QKVO层相互依赖的重建优化方法本方法于GPTQ类似，在量化后对其余未量化权重进行更新以补偿量化损失，更新公式：其中H是Hessian矩阵，Chol(·)代表Cholesky分解，因此U是上三角矩阵且为了弥补GPTQ的Hessian估计方法只与输入有关，与注意力模块其他层无关的问题，本方法提出了新的Hessian估计方法：推导主要利用了对于的二阶导是，其中J为关于softmax函数的Jacobian矩阵。创新点2：高效实现relaxed...

CBQ: Cross-Block Quantization for Large Language...

FlexRound: Learnable Rounding based on Element-wise Division for Post-Training Quantization阅读笔记核心创新点：基于逐元素触发的灵活舍入提出一种新的权重舍入机制，S为与W相同形状的scale矩阵，其中的每个元素都是正且可学习的，其中的和都是通过最小化学习到的。由于层不同通道输出差异大，在实际应用时，对线性层还需引入；对2D卷积需引入和，最终量化公式：其它暂时还没想明白每个权重都配了一个scale辅助量化，量化后使用的内存不是更大了吗，有机会再研究一下。

KurTail : Kurtosis-based LLM Quantization阅读笔记motivation对于使用旋转矩阵来抚平outlier的方法，随机旋转矩阵不够优，端到端loss训练的学习旋转矩阵又太费计算资源，于是提出了一种聚焦于tail density（通常指的是概率分布尾部的概率密度，即随机变量取值在远离分布中心的区域的概率密度，它反映了分布尾部的“厚重”程度）的旋转矩阵学习方法。背景补充峰度表征概率密度分布曲线在平均值处峰值高低的特征数，直观看来，峰度反映了峰部的尖度。计算公式：正态分布峰度为3，大于3为正峰度，代表数据中有更多的极端值。主要创新点：基于峰度的旋转矩阵学习方法基于峰度的损失函数：其中，代表将第层所有激活进行拼接。采用逐层优化策略，首先运行原始模型并存储MHSA和FFN块的输入，然后创建一个只有一个线性层的小模型来模拟量化前的输入，最后使用Kurtosis损失函数训练旋转。为了进一步优化，在训练时将不同层的输入混在一起。为了在不量化的时候模型输出不变，旋转矩阵的学习需要在正交空间内进行优化，使用Caley...