由本自性清净故，令诸爱染悉无垢

发表于2025-04-15

SliceGPT: Compress Large Language Models by Deleting Rows and...

发表于2025-04-14

ASVD: Activation-aware Singular Value Decomposition for Compressing Large Language...

发表于2025-04-14

PD-Quant: Post-Training Quantization based on Prediction Difference Metric阅读笔记motivation 现有方法往往尝试输入输出间的距离，只利用了局部信息没有理由全局信息。校准集较小已发生过拟合。创新点1：预测差异损失（PD Loss）假定激活前的层都已经被量化，损失定义：其中代表将映射到模型最终的FP16输出，代表量化第层，是激活的scale。该损失和真正的任务损失（CE）表现更一致，如下图，实际的计算使用的是KL散度，其表现要优于MSE和余弦距离，可能因为量化过程可以被视作一种知识蒸馏。为了避免过拟合，在损失中加入正则项：其中是正则力度超参，是正则函数，是决定取整方向的参数。创新点2：依据Norm进行分布校正为进一步防止对校准集过拟合，根据Norm层的均值和方差对各层输入进行微调，目标损失函数：其中、是第个块第个Norm层的均值和方差，目的是使得矫正后的校准集激活更加靠近训练集，同时又不要偏离原始激活太多。OAD为原始激活，ADC为校正后，校正后的效果：其它PD...

BitStack

发表于2025-04-14

BitStack: Any-Size Compression of Large Language Models in Variable Memory Environments阅读笔记motivation现有方法不能动态调整被压缩模型大小，且现有权重分解方法和量化方法间精度尚有差异。创新点1：迭代式绝对值分解将矩阵符号值分离，改写为，对使用SVD分解，权重矩阵单独保存，每参数多占用1bit。对原始矩阵进行权重分解则变为：其残差可记作：对残差进行二次分解：总的权重分解估计公式则为，可以根据可用内存量动态决定load多少块：创新点2：动态加载排序由创新点1显然第组低秩块比第组更重要。为减小最优策略搜索空间，规定任意两个线性层间加载了的低秩块组数差值不能超过1。将模型的前组低秩块都加载完成后，分别加载每个线性层的第块并计算校准集的困惑度，困惑度越低的更加重要。更重要的块在内存增加时会更优先被load 其它为了应对激活中的绝对值采用了AWQ中逐通道缩放的方法，缩放因子直接通过该通道激活的二阶范数计算，即，前向传播过程变为，所以实际分解时，分解的权重矩阵是这个

Dobi-SVD

发表于2025-04-13

Dobi-SVD: Differentiable SVD for LLM Compression and Some New Perspectives阅读笔记motivation认为分解激活（这里的激活指的不是输入，是）比分解权重更好，提出了激活SVD分解后接无需LoRA的权重补偿新范式。同时提出了一种新的SVD分解矩阵储存方法使得分解秩与压缩率的关系变成一种双射，在保留更多信息的同时提高压缩率。创新点1：逐层自动化目标秩判定每个模型有L层，每一层有M层，假设每层对应的激活有n个奇异值，则可选择的截断（舍弃top...

SVD-LLM

发表于2025-04-11

SVD-LLM: Truncation-aware Singular Value Decomposition for Large Language Model Compression阅读笔记motivation 当前基于奇异值分解的方法缺乏奇异值与量化损失函数之间具体的的关系证明，丢弃较小奇异值也可能导致较大的损失 SVD后没有对分解后的低秩向量微调补偿。创新点1：分解前数据白化首先收集校准数据，对进行Cholesky分解得到，取下三角矩阵作为白化矩阵，有：记将奇异值分解为、、，其中已知矩阵 A 的 Frobenius 范数（维度为 m×n）可以推导为它的 Gram...

LLM-Streamline

发表于2025-04-08

Streamlining Redundant Layers to Compress Large Language...

TEAL

发表于2025-04-07

Training-Free Activation Sparsity in Large Language Models阅读笔记motivation观察到LLaMA中各中间层的激活通常是零均值单峰分布的。且在MLP\注意力模块前的激活呈现高斯分布，内部激活呈现拉普拉斯分布，即，特征。大量在零点集中的激活启发了本文基于激活绝对值大小的激活稀疏方法。作者观察到权重通常为高斯分布，而当一个独立的各向同性高斯向量与一个独立的高斯矩阵相乘时，结果服从多变量广义拉普拉斯分布，之所以均值为零是由于正则化的影响，这可能能解释上述的激活分布。背景激活稀疏分为两大类：第一种是input sparsity，即计算时，x中零元素对应的权重列不会被使用；第二种是output sparsity，即计算时，s中零元素对应的权重行不会被用到因此为了保证连续内存访问，对于input sparsity方法，权重要按列存储；对于output...

QuartDepth

发表于2025-04-04

QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge阅读笔记motivation针对Monocular Depth Estimation（MDE）模型进行的量化，这个任务的主要目标是用单张图片判定深度信息。发现MDE模型中卷积和矩阵乘法在推理过程的时间消耗中占大头，发现在depth...

OAC

发表于2025-04-03

OAC: Output-adaptive Calibration for Accurate Post-training Quantization阅读笔记motivation现有的逐层最小化量化后权重更新方法本质是“输出不可知的”，因为其只考虑了单层的输出而没有考虑模型整体的输出，因此本文提出了一种输出自适应的Hessian估计方法，其目的从对齐层量化前后的输出到了对齐模型的输出。创新点：输出自适应Hessian思想将模型所有层的所有权重展平量化后可视作，因此量化损失可视作： Hessian表达式为：因为模型已充分训练所以梯度为可视作0，Hessian矩阵被用于如下的量化后权重更新（类OPTQ）：与显著权重判定： Hessian高效率计算通过假定跨层独立性可将原始Hessian矩阵简化为以层权重为块单位的块对角矩阵，将非同层权重间元素视为0；通过假定权重每行独立，可将层Hessian矩阵简化为以行权重为单位的块对角矩阵，不同行权重间元素视为0，即：为了减少内存使用，将逐行权重的Hessian求和为 ...