SliceGPT: Compress Large Language Models by Deleting Rows and Columns阅读笔记

Transformer架构的计算不变性

传统Tranformer架构为:

屏幕截图2025-04-15110401.png

注意力模块QKV的分别投影可以看作拼接为后一起投影,整体前向传播过程可看作:

屏幕截图2025-04-15110838.png

对于RMSNorm,在归一化前乘正交矩阵,在归一化后乘,则其归一化后值不变。

即:

可通过如下矩阵变换将所有吸收进原本的模型参数中:

屏幕截图2025-04-15111317.png

LayerNorm变RMSNorm

LayerNorm到RMS的数学关系可看作:

屏幕截图2025-04-15113103.png

其中,则,其中为对每行的值求和,相当于LayerNorm的减均值。

吸收进原本的模型架构中,其中来自前一层,也需转换为则需根据最后一层layernorm的scale进行缩放。

屏幕截图2025-04-15142841.png

不同块采用不同的旋转矩阵

因为不同层的激活不同,其使用的旋转矩阵也不应相同。旋转矩阵的计算使用PCA方法,记第个RMSNorm块的有关校准集第个序列的激活为,计算i倍协方差矩阵,则降序排列的特征向量。

为了保持计算不变性,对于残差分支也要施以的旋转矩阵。

屏幕截图2025-04-15145329.png

核心:权重裁剪

使用低维度矩阵Z代替原本的激活达到裁剪权重矩阵的目的,其中,和D乘相当于去掉了原本的一些列。在实际前向传播中,关于矩阵的降维通过直接裁剪的相应行和的相应列完成的,相对应的,也应裁剪去的相应行列。

屏幕截图2025-04-15145812.png

其它

KurTail就是延续了这里的计算不变性(computational invariance)框架。