Z-Fold
Z-Fold: A Frustratingly Easy Post-Training Quantization Scheme for LLMs阅读笔记创新点1:引入in_channel scale构建高维逐元素scale在已有的out_channel scale 外,引入in_channel scale ,矩阵相乘得到逐元素scale矩阵S。 则量化带来的扰动可写作: 先用min-max初始化,全1初始化,不断通过最小二乘法搜索使得量化损失(泰勒展开二阶项)最小的、直到收敛。 创新点2:将融入原始模型对于Norm后的线性层,其仿射变换可看作: 为了不引入其它参数将融入原始模型,对于QKV层,将其拼接在一起进行搜索公用的,并将原始仿射矩阵与相乘即可: 对于两线性层间除ReLU外无其他函数的线性层,直接将后一层的融入前一层的即可: 其它与2025的LRQ的都使用了低秩分解方法得到一个高维的逐单位scale,本方法还使用了类OPTQ的重建方法。
BoA
BoA: Attention-aware Post-training Quantization without Backpropagation阅读笔记motivation基于梯度的重建优化方法受参数规模限制难以迁移到大语言模型上,传统的基于变换的量化方法又欠考虑了层间关系,因此提出了一种无需BP,综合考虑QKVO层相互依赖的量化方法。 创新点1:基于QKVO层相互依赖的重建优化方法本方法于GPTQ类似,在量化后对其余未量化权重进行更新以补偿量化损失,更新公式: 其中H是Hessian矩阵,Chol(·)代表Cholesky分解,因此U是上三角矩阵且 为了弥补GPTQ的Hessian估计方法只与输入有关,与注意力模块其他层无关的问题,本方法提出了新的Hessian估计方法: 推导主要利用了对于的二阶导是,其中J为关于softmax函数的Jacobian矩阵。 创新点2:高效实现relaxed...
BCQ
BCQ: Block Clustered Quantization for 4-bit (W4A4) LLM Inference阅读笔记创新点1:将向量聚块量化对于一个有元素的向量,将连续个元素分为一个块,用个密码本进行量化 整个量化过程分为两步:第一步为每个块分配一个密码本用于量化,第二步在相应密码本里寻找每个元素用于量化的条目。 每个块可视为一个array,共享一个缩放参数,每个向量有一个缩放参数,将量化到位。 最终该方法占用的实际位宽为: 创新点2:局部最优块聚类量化算法最初利用Kmeans++算法初始化密码本中的元素,固定密码本,根据MSE寻找每个块的最优密码本,即: 再固定密码本选择策略,利用LloydMax算法为每个密码本寻找最优元素,反复迭代直至收敛或达到指定次数。
AdaReTake
AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding阅读笔记motivationtoken冗余度随时间(不同帧)和模型层数的变化大,需要动态分配压缩率的方法。 创新点1:根据热点token比率衡量冗余性记注意力头个数,提示长度、视频token长度,对于第层,其注意力分数为,接着计算每个视频token头平均提示和注意力分数: 最终热点token比率可定义为: 其中为指示函数,p为常量,本方法使用0.01。 创新点2:时间自适应压缩率分配将每帧看作一个块,其中每帧含有N个token。每个块中相邻帧的距离可以看作 其中Sim(·)代表余弦相似度函数,对其求元素平均得到第i个块的平均帧距离,以表示该块内的时间冗余度,每块的压缩率最后为: 其中是最终KV...
FlexRound
FlexRound: Learnable Rounding based on Element-wise Division for Post-Training Quantization阅读笔记核心创新点:基于逐元素触发的灵活舍入提出一种新的权重舍入机制,S为与W相同形状的scale矩阵,其中的每个元素都是正且可学习的,其中的和都是通过最小化学习到的。 由于层不同通道输出差异大,在实际应用时,对线性层还需引入;对2D卷积需引入和,最终量化公式: 其它暂时还没想明白每个权重都配了一个scale辅助量化,量化后使用的内存不是更大了吗,有机会再研究一下。
LRQ
LRQ: Optimizing Post-Training Quantization for Large Language Models by Learning Low-Rank Weight-Scaling Matrices阅读笔记motivation 仅权重量化只在小batch推理时加速才明显,权重激活量化则精度下降太多。 众多方法中SmoothQuant和FlexRound都使用了硬件有好的per-tensor静态量化,但前者精度下降过高,后者因为要学习过多参数泛化性能不够好(MMLU上表现不够理想)。 创新点:权重矩阵低秩分解权重分解核心公式: 其中,、相乘后得到与权重维度的矩阵,、,为行/列向量,收低秩矩阵在推荐系统中的应用启发。 最终目标为最小化块量化损失
PTQ161
PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models阅读笔记总结 过往研究多使用无结构的细粒度掩码来判断是否为显著(salient)权重,本方法改进为一维结构掩码,同一个通道使用同一个掩码,每个权重只需额外增加0.0002位。 对于二值化的非显著权重,为了将隐含的行间相关性和角度偏差纳入考虑范围内,使用了以块为单位的优化策略。 提出量化预处理的新范式,在量化前使用restorative...
MQuant
MQuant: Unleashing the Inference Potential of Multimodal Large Language Models via Full Static Quantization阅读笔记motivation 多模态模型有大量视觉token,使得推理速度变慢,首token延迟变长,per-token dynamic quantization加剧了这个问题。 不同模态间激活差异大,视觉token激活范围通常比文字token大,文字token激活范围通常接近0。 Hadamard 旋转会引入新outlier。 创新点1:特定模态的静态量化(MSQ)对于不同模态使用不同的静态per-tensor scale,量化公式: 创新点2:等价注意力变换(AIFS)为了避免重复对交错模态的输入进行处理,减少内存消耗,将所以视觉token移至最前将掩码由 重定义为: 创新点3:旋转幅度抑制(RMS)过往研究表明较低的不相干性 ...
CASP
CASP: Compression of Large Multimodal Models Based on Attention Sparsity阅读笔记总结 认为多模态模型的输入天然带有的冗余属性导致了其及其稀疏的attention map(与其backbone的LLM比较)。 证明了attention map的稀疏性决定了、量化误差的上界,越稀疏上界则越小。 低比特压缩但无需finetune,可适用于LMM和LLM。 创新点1:基于数据感知与稀疏性的、低秩分解 计算校准数据的协方差矩阵 C,然后通过 Cholesky 分解获得下三角矩阵 L。接着,将白化矩阵 A 定义为 L 的逆矩阵。通过将 A 应用到校准数据上,将数据白化,再利用白化数据计算 attention map。 低秩分解后的 attention map: 定义稀疏性为 attention map 中值高于阈值 的比例,则优化目标为: 创新点2:最优量化比特分配 定义了块重要性分数: 减轻过度稀疏带来的不利影响,采用熵正则化来实现平滑。其中是第层分配到的数。最终优化目标为: 最优分配解:
KurTail
KurTail : Kurtosis-based LLM Quantization阅读笔记motivation对于使用旋转矩阵来抚平outlier的方法,随机旋转矩阵不够优,端到端loss训练的学习旋转矩阵又太费计算资源,于是提出了一种聚焦于tail density(通常指的是概率分布尾部的概率密度,即随机变量取值在远离分布中心的区域的概率密度,它反映了分布尾部的“厚重”程度)的旋转矩阵学习方法。 背景补充峰度 表征概率密度分布曲线在平均值处峰值高低的特征数,直观看来,峰度反映了峰部的尖度。 计算公式: 正态分布峰度为3,大于3为正峰度,代表数据中有更多的极端值。 主要创新点:基于峰度的旋转矩阵学习方法 基于峰度的损失函数: 其中,代表将第层所有激活进行拼接。 采用逐层优化策略,首先运行原始模型并存储MHSA和FFN块的输入,然后创建一个只有一个线性层的小模型来模拟量化前的输入,最后使用Kurtosis损失函数训练旋转。为了进一步优化,在训练时将不同层的输入混在一起。 为了在不量化的时候模型输出不变,旋转矩阵的学习需要在正交空间内进行优化,使用Caley...