Z-Fold: A Frustratingly Easy Post-Training Quantization Scheme for LLMs阅读笔记

创新点1:引入in_channel scale构建高维逐元素scale

在已有的out_channel scale 外,引入in_channel scale ,矩阵相乘得到逐元素scale矩阵S。

屏幕截图2025-03-28172636.png

则量化带来的扰动可写作:

屏幕截图2025-03-28172915.png

先用min-max初始化,全1初始化,不断通过最小二乘法搜索使得量化损失(泰勒展开二阶项)最小的直到收敛。

创新点2:将融入原始模型

对于Norm后的线性层,其仿射变换可看作:

屏幕截图2025-03-28184745.png

为了不引入其它参数将融入原始模型,对于QKV层,将其拼接在一起进行搜索公用的,并将原始仿射矩阵与相乘即可:

屏幕截图2025-03-28185117.png

对于两线性层间除ReLU外无其他函数的线性层,直接将后一层的融入前一层的即可:

屏幕截图2025-03-28185503.png

其它

与2025的LRQ的都使用了低秩分解方法得到一个高维的逐单位scale,本方法还使用了类OPTQ的重建方法。