LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid阅读笔记

motivation

  • 认为传统的min-max对称网格量化无法很好地处理Hessian逆矩阵中的outlier。

屏幕截图2025-03-04021905

  • 基于OBQ思想,认为量化损失与权重量化误差的平方、逆Hessian矩阵对角的元素的倒数成正比

创新点:Loss-Error-Aware-Grid

  • 核心思想:用逆Hessian矩阵对角的元素的倒数为量化误差加权。

非均匀网格

  • 优化目标:屏幕截图2025-03-04022835
  • 均匀间隔网格初始化,再通过kmeans进行学习

屏幕截图2025-03-04023225

均匀网格

  • 优化目标:屏幕截图2025-03-04023330

    其中 R=max(w)-min(w)​,T是控制搜索粒度的超参数。

其它

主要延续了GPTQ的思想,在GPTQ基础上做了网格量化。