PTQ161
PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models阅读笔记总结 过往研究多使用无结构的细粒度掩码来判断是否为显著(salient)权重,本方法改进为一维结构掩码,同一个通道使用同一个掩码,每个权重只需额外增加0.0002位。 对于二值化的非显著权重,为了将隐含的行间相关性和角度偏差纳入考虑范围内,使用了以块为单位的优化策略。 提出量化预处理的新范式,在量化前使用restorative...
MQuant
MQuant: Unleashing the Inference Potential of Multimodal Large Language Models via Full Static Quantization阅读笔记motivation 多模态模型有大量视觉token,使得推理速度变慢,首token延迟变长,per-token dynamic quantization加剧了这个问题。 不同模态间激活差异大,视觉token激活范围通常比文字token大,文字token激活范围通常接近0。 Hadamard 旋转会引入新outlier。 创新点1:特定模态的静态量化(MSQ)对于不同模态使用不同的静态per-tensor scale,量化公式: 创新点2:等价注意力变换(AIFS)为了避免重复对交错模态的输入进行处理,减少内存消耗,将所以视觉token移至最前将掩码由 重定义为: 创新点3:旋转幅度抑制(RMS)过往研究表明较低的不相干性 ...
CASP
CASP: Compression of Large Multimodal Models Based on Attention Sparsity阅读笔记总结 认为多模态模型的输入天然带有的冗余属性导致了其及其稀疏的attention map(与其backbone的LLM比较)。 证明了attention map的稀疏性决定了、量化误差的上界,越稀疏上界则越小。 低比特压缩但无需finetune,可适用于LMM和LLM。 创新点1:基于数据感知与稀疏性的、低秩分解 计算校准数据的协方差矩阵 C,然后通过 Cholesky 分解获得下三角矩阵 L。接着,将白化矩阵 A 定义为 L 的逆矩阵。通过将 A 应用到校准数据上,将数据白化,再利用白化数据计算 attention map。 低秩分解后的 attention map: 定义稀疏性为 attention map 中值高于阈值 的比例,则优化目标为: 创新点2:最优量化比特分配 定义了块重要性分数: 减轻过度稀疏带来的不利影响,采用熵正则化来实现平滑。其中是第层分配到的数。最终优化目标为: 最优分配解:
KurTail
KurTail : Kurtosis-based LLM Quantization阅读笔记motivation对于使用旋转矩阵来抚平outlier的方法,随机旋转矩阵不够优,端到端loss训练的学习旋转矩阵又太费计算资源,于是提出了一种聚焦于tail density(通常指的是概率分布尾部的概率密度,即随机变量取值在远离分布中心的区域的概率密度,它反映了分布尾部的“厚重”程度)的旋转矩阵学习方法。 背景补充峰度 表征概率密度分布曲线在平均值处峰值高低的特征数,直观看来,峰度反映了峰部的尖度。 计算公式: 正态分布峰度为3,大于3为正峰度,代表数据中有更多的极端值。 主要创新点:基于峰度的旋转矩阵学习方法 基于峰度的损失函数: 其中,代表将第层所有激活进行拼接。 采用逐层优化策略,首先运行原始模型并存储MHSA和FFN块的输入,然后创建一个只有一个线性层的小模型来模拟量化前的输入,最后使用Kurtosis损失函数训练旋转。为了进一步优化,在训练时将不同层的输入混在一起。 为了在不量化的时候模型输出不变,旋转矩阵的学习需要在正交空间内进行优化,使用Caley...
ReQuant
Identifying Sensitive Weights via Post-quantization Integral阅读笔记对于现有的敏感度指标的分析现有的敏感度指标主要基于梯度与Hessian矩阵(使用Fisher准则估计) 由于模型量化后的权重可能超出收敛半径,导致泰勒展开近似失效,传统的Hessian矩阵估计也不准。 层与层间互相不独立,单独计算每层的权重敏感度变得不可靠。 创新点1: 后量化积分(PQI)通过积分路径上的梯度信息,能够更准确地估计量化对损失函数的影响,即将量化损失计算改写为 其中C是从到的任意路径,PQI可定义为 量化损失差改写为 其中代表取每个元素的绝对值,防止正负梯度项相互抵消,以提高泛化性。 在实际使用时,使用矩形估计的方法: 由于F的增长与成线性,因此解决了层间不独立的问题;由于PQI将路径分成很多小段,使得每段都落在收敛范围内,因此使得其估计值保持准确。 观察到较浅的层往往有较大的,且一层中的不同projection...
SVDQuant
SVDQuant: Absorbing Outliers by Low-Rank Component for 4-Bit Diffusion Models阅读笔记motivation LLM 的时延主要受权重加载的限制,但扩散模型则计算量较大,仅量化权重无法实际加速扩散模型 扩散模型的权重和激活都对于outlier很敏感,使得传统的将量化难度从激活转移至权重的方法走不通。 Proposition误差分解量化误差可分解为,其中F代表Frobenius范数(所有元素绝对值的平方和的平方根)。 量化误差界对于形似所有的量化过程中的向量R,假设 R 的元素服从正态分布,则有 ,其中size(R)是R中的元素数 创新点1:通过低秩分支吸收outlier 整体流程图 首先引入逐通道缩放参数将outlier从激活转移至权重上。 接着引入残差分支,将权重转化为,其中,在量化时低秩分支保持FP16,残差部分量化至4bit,即 量化误差可表示为: ...
OSTQuant
OSTQuant: Refining Large Language Model Quantization with Orthogonal and Scaling Transformations for Better Distribution Fitting阅读笔记motivation 现有LLM量化面临两大挑战: LLM的权重与激活值通常具有非对称、重尾分布特征以及通道间方差差异。 校准集较小,传统损失函数(如交叉熵)容易在小样本下过拟合 现有改善数据分布的方法依赖启发性设计,缺乏系统性评估。 创新点1:量化空间利用率(QSUR) 对于原始数据占据的超体积,可以看作一个由协方差矩阵决定的椭圆形。对于一个d维的数据,其超体积计算公式为 其中是椭球体半轴长度的连乘,卡方分布的引入,使其在给定置信水平 α...
LeanQuant
LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid阅读笔记motivation 认为传统的min-max对称网格量化无法很好地处理Hessian逆矩阵中的outlier。 基于OBQ思想,认为量化损失与权重量化误差的平方、逆Hessian矩阵对角的元素的倒数成正比 创新点:Loss-Error-Aware-Grid 核心思想:用逆Hessian矩阵对角的元素的倒数为量化误差加权。 非均匀网格 优化目标: 均匀间隔网格初始化,再通过kmeans进行学习 均匀网格 优化目标: 其中 R=max(w)-min(w),T是控制搜索粒度的超参数。 其它主要延续了GPTQ的思想,在GPTQ基础上做了网格量化。 document.addEventListener("DOMContentLoaded", function() { renderMathInElement(document.body, { ...
CBQ
CBQ: Cross-Block Quantization for Large Language...
AKVQ-VL
AKVQ-VL: Attention-Aware KV Cache Adaptive 2-Bit Quantization for Vision-Language Models阅读笔记motivation 认为现有KV Cache量化没有关注到多模态token间的显著性(saliency)区别 观察到多模态模型在初始层优先关注文本token(文本显著性注意力,TSA),而在后续层则关注少数关键token(关键token显著性注意力,PSA)。 与LLM都具有’local’ attention pattern,即都会更关注临近的token 与LLM不同,多模态模型PSA时的pivot token不光是开头的sink token,还有其他位置的token。 创新点1:显著性token识别 TSA层的显著token:text token和recent token。 PSA层的显著token:sink token(开头)和具有大激活值的token。 对于pivot token(PSA层显著token,recent token)使用fp16保存,对于text...