FlexRound: Learnable Rounding based on Element-wise Division for Post-Training Quantization阅读笔记

核心创新点:基于逐元素触发的灵活舍入

提出一种新的权重舍入机制,S为与W相同形状的scale矩阵,其中的每个元素都是正且可学习的,其中的都是通过最小化学习到的。

由于层不同通道输出差异大,在实际应用时,对线性层还需引入;对2D卷积需引入,最终量化公式:

屏幕截图2025-03-19180105.png

其它

暂时还没想明白每个权重都配了一个scale辅助量化,量化后使用的内存不是更大了吗,有机会再研究一下。