PD-Quant: Post-Training Quantization based on Prediction Difference Metric阅读笔记

motivation

  • 现有方法往往尝试输入输出间的距离,只利用了局部信息没有理由全局信息。
  • 校准集较小已发生过拟合。

创新点1:预测差异损失(PD Loss)

假定激活前的层都已经被量化,损失定义:
屏幕截图2025-04-14103017.png
其中代表将映射到模型最终的FP16输出,代表量化第层,是激活的scale。
该损失和真正的任务损失(CE)表现更一致,如下图,实际的计算使用的是KL散度,其表现要优于MSE和余弦距离,可能因为量化过程可以被视作一种知识蒸馏。
屏幕截图2025-04-14104217.png
为了避免过拟合,在损失中加入正则项:
屏幕截图2025-04-14104523.png
其中是正则力度超参,是正则函数,是决定取整方向的参数。

创新点2:依据Norm进行分布校正

为进一步防止对校准集过拟合,根据Norm层的均值和方差对各层输入进行微调,目标损失函数:
屏幕截图2025-04-14135829.png
其中是第个块第个Norm层的均值和方差,目的是使得矫正后的校准集激活更加靠近训练集,同时又不要偏离原始激活太多。
OAD为原始激活,ADC为校正后,校正后的效果:
屏幕截图2025-04-14140431.png

其它

PD Loss搜索只针对激活,权重未采用。