BCQ: Block Clustered Quantization for 4-bit (W4A4) LLM Inference阅读笔记

创新点1:将向量聚块量化

对于一个有元素的向量,将连续个元素分为一个块,用个密码本进行量化

屏幕截图2025-03-24111405.png

整个量化过程分为两步:第一步为每个块分配一个密码本用于量化,第二步在相应密码本里寻找每个元素用于量化的条目。

屏幕截图2025-03-24112226.png

个块可视为一个array,共享一个缩放参数,每个向量有一个缩放参数,将量化到位。

屏幕截图2025-03-24113736.png

最终该方法占用的实际位宽为:

屏幕截图2025-03-25004527.png

创新点2:局部最优块聚类量化算法

最初利用Kmeans++算法初始化密码本中的元素,固定密码本,根据MSE寻找每个块的最优密码本,即:

屏幕截图2025-03-25004938.png

再固定密码本选择策略,利用LloydMax算法为每个密码本寻找最优元素,反复迭代直至收敛或达到指定次数。