BCQ
BCQ: Block Clustered Quantization for 4-bit (W4A4) LLM Inference阅读笔记
创新点1:将向量聚块量化
对于一个有
整个量化过程分为两步:第一步为每个块分配一个密码本用于量化,第二步在相应密码本里寻找每个元素用于量化的条目。
每
最终该方法占用的实际位宽为:
创新点2:局部最优块聚类量化算法
最初利用Kmeans++算法初始化密码本中的元素,固定密码本,根据MSE寻找每个块的最优密码本,即:
再固定密码本选择策略,利用LloydMax算法为每个密码本寻找最优元素,反复迭代直至收敛或达到指定次数。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 由本自性清净故,令诸爱染悉无垢!