Quadapter: Adapter for GPT-2 Quantization阅读笔记

motivation

认为激活中的outliers使得量化困难,QAT又会造成对于对于微调数据的过拟合,于是引入Quadapter保持原模型参数不变防止过拟合,并进行逐channel缩放使得激活易于量化。

创新点:Quadapter架构

对于任意两线性层间的前向传播:,使用Quadapter后变为:

屏幕截图2025-03-30211940.png

其中的对角矩阵,是可学习的Quadapter参数,其作用相当于:

屏幕截图2025-03-30212231.png

训练流程

阶段1:逐Quadapter块校准

对每块根据L2损失进行校准:

屏幕截图2025-03-30215627.png

其中使用动态量化策略进行计算,对于使用1向量初始化,使用梯度进行更新:

屏幕截图2025-03-30215903.png

阶段2:端到端微调

使用静态量化方法,具体流程:

屏幕截图2025-03-30220754.png