ReQuant
Identifying Sensitive Weights via Post-quantization Integral阅读笔记对于现有的敏感度指标的分析现有的敏感度指标主要基于梯度与Hessian矩阵(使用Fisher准则估计) 由于模型量化后的权重可能超出收敛半径,导致泰勒展开近似失效,传统的Hessian矩阵估计也不准。 层与层间互相不独立,单独计算每层的权重敏感度变得不可靠。 创新点1: 后量化积分(PQI)通过积分路径上的梯度信息,能够更准确地估计量化对损失函数的影响,即将量化损失计算改写为 其中C是从到的任意路径,PQI可定义为 量化损失差改写为 其中代表取每个元素的绝对值,防止正负梯度项相互抵消,以提高泛化性。 在实际使用时,使用矩形估计的方法: 由于F的增长与成线性,因此解决了层间不独立的问题;由于PQI将路径分成很多小段,使得每段都落在收敛范围内,因此使得其估计值保持准确。 观察到较浅的层往往有较大的,且一层中的不同projection...
SVDQuant
SVDQuant: Absorbing Outliers by Low-Rank Component for 4-Bit Diffusion Models阅读笔记motivation LLM 的时延主要受权重加载的限制,但扩散模型则计算量较大,仅量化权重无法实际加速扩散模型 扩散模型的权重和激活都对于outlier很敏感,使得传统的将量化难度从激活转移至权重的方法走不通。 Proposition误差分解量化误差可分解为,其中F代表Frobenius范数(所有元素绝对值的平方和的平方根)。 量化误差界对于形似所有的量化过程中的向量R,假设 R 的元素服从正态分布,则有 ,其中size(R)是R中的元素数 创新点1:通过低秩分支吸收outlier 整体流程图 首先引入逐通道缩放参数将outlier从激活转移至权重上。 接着引入残差分支,将权重转化为,其中,在量化时低秩分支保持FP16,残差部分量化至4bit,即 量化误差可表示为: ...
OSTQuant
OSTQuant: Refining Large Language Model Quantization with Orthogonal and Scaling Transformations for Better Distribution Fitting阅读笔记motivation 现有LLM量化面临两大挑战: LLM的权重与激活值通常具有非对称、重尾分布特征以及通道间方差差异。 校准集较小,传统损失函数(如交叉熵)容易在小样本下过拟合 现有改善数据分布的方法依赖启发性设计,缺乏系统性评估。 创新点1:量化空间利用率(QSUR) 对于原始数据占据的超体积,可以看作一个由协方差矩阵决定的椭圆形。对于一个d维的数据,其超体积计算公式为 其中是椭球体半轴长度的连乘,卡方分布的引入,使其在给定置信水平 α...
LeanQuant
LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid阅读笔记motivation 认为传统的min-max对称网格量化无法很好地处理Hessian逆矩阵中的outlier。 基于OBQ思想,认为量化损失与权重量化误差的平方、逆Hessian矩阵对角的元素的倒数成正比 创新点:Loss-Error-Aware-Grid 核心思想:用逆Hessian矩阵对角的元素的倒数为量化误差加权。 非均匀网格 优化目标: 均匀间隔网格初始化,再通过kmeans进行学习 均匀网格 优化目标: 其中 R=max(w)-min(w),T是控制搜索粒度的超参数。 其它主要延续了GPTQ的思想,在GPTQ基础上做了网格量化。 document.addEventListener("DOMContentLoaded", function() { renderMathInElement(document.body, { ...
CBQ
CBQ: Cross-Block Quantization for Large Language...
AKVQ-VL
AKVQ-VL: Attention-Aware KV Cache Adaptive 2-Bit Quantization for Vision-Language Models阅读笔记motivation 认为现有KV Cache量化没有关注到多模态token间的显著性(saliency)区别 观察到多模态模型在初始层优先关注文本token(文本显著性注意力,TSA),而在后续层则关注少数关键token(关键token显著性注意力,PSA)。 与LLM都具有’local’ attention pattern,即都会更关注临近的token 与LLM不同,多模态模型PSA时的pivot token不光是开头的sink token,还有其他位置的token。 创新点1:显著性token识别 TSA层的显著token:text token和recent token。 PSA层的显著token:sink token(开头)和具有大激活值的token。 对于pivot token(PSA层显著token,recent token)使用fp16保存,对于text...