Dobi-SVD

发表于2025-04-13|更新于2025-04-13

|浏览量:

Dobi-SVD: Differentiable SVD for LLM Compression and Some New Perspectives阅读笔记

motivation

认为分解激活（这里的激活指的不是输入，是）比分解权重更好，提出了激活SVD分解后接无需LoRA的权重补偿新范式。同时提出了一种新的SVD分解矩阵储存方法使得分解秩与压缩率的关系变成一种双射，在保留更多信息的同时提高压缩率。

屏幕截图2025-04-13224221.png

创新点1：逐层自动化目标秩判定

每个模型有L层，每一层有M层，假设每层对应的激活有n个奇异值，则可选择的截断（舍弃top k外的奇异值）位置有种，为了能自动化选取截断位置，需使截断函数可导，将奇异值改写为，其中是一个可学习参数，将其他参数冻结进行训练：

屏幕截图2025-04-13183132.png

记SVD分解后的激活为，记关于用于提取反对称矩阵，则激活的梯度可表示为：

屏幕截图2025-04-13212047.png

当 $、$ 相近时，会接近0，造成梯度爆炸。

为防止梯度爆炸，当且的时候，记

当 $、$ 相近但不接近0时，对其进行泰勒展开：

屏幕截图2025-04-13212554.png

创新点2：权重更新补偿

设G为前k的对角元素为1，其他对角元素为0的矩阵，激活分解可看作：

屏幕截图2025-04-13212942.png

其中激活，则理想的更新后权重应满足：

屏幕截图2025-04-13213116.png

适用增量式主成分分析算法（IPCA）对其进行计算：

屏幕截图2025-04-13213502.png

创新点3：混合精度矩阵存储

对于矩阵，传统方法压缩率为，k比矩阵秩小的时候压缩率就到1了，但这个时候矩阵信息还是有所损失的，感觉这里用单射来形容怪怪的。本文方法压缩率为

不妨令，对于更新后的权重进行SVD分解得到 $、、$ ，提取的前列，形状为，其中前列采用8bit精度存储，提取的前行，也转换为 8bit，再和中 8bit 的那一堆一起存储即可。

屏幕截图2025-04-13224543.png

其它

虽然都是在ICLR 2025上接受的，但这篇实际是在LLM-SVD的基础上进一步做的并和LLM-SVD进行了比较。

文章作者: Wotoosh

文章链接: https://wotoosh.github.io/2025/04/13/Dobi-SVD/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源由本自性清净故，令诸爱染悉无垢！

相关推荐

SVD-LLM: Truncation-aware Singular Value Decomposition for Large Language Model Compression阅读笔记motivation 当前基于奇异值分解的方法缺乏奇异值与量化损失函数之间具体的的关系证明，丢弃较小奇异值也可能导致较大的损失 SVD后没有对分解后的低秩向量微调补偿。创新点1：分解前数据白化首先收集校准数据，对进行Cholesky分解得到，取下三角矩阵作为白化矩阵，有：记将奇异值分解为、、，其中已知矩阵 A 的 Frobenius 范数（维度为 m×n）可以推导为它的 Gram...

BitStack: Any-Size Compression of Large Language Models in Variable Memory Environments阅读笔记motivation现有方法不能动态调整被压缩模型大小，且现有权重分解方法和量化方法间精度尚有差异。创新点1：迭代式绝对值分解将矩阵符号值分离，改写为，对使用SVD分解，权重矩阵单独保存，每参数多占用1bit。对原始矩阵进行权重分解则变为：其残差可记作：对残差进行二次分解：总的权重分解估计公式则为，可以根据可用内存量动态决定load多少块：创新点2：动态加载排序由创新点1显然第组低秩块比第组更重要。为减小最优策略搜索空间，规定任意两个线性层间加载了的低秩块组数差值不能超过1。将模型的前组低秩块都加载完成后，分别加载每个线性层的第块并计算校准集的困惑度，困惑度越低的更加重要。更重要的块在内存增加时会更优先被load 其它为了应对激活中的绝对值采用了AWQ中逐通道缩放的方法，缩放因子直接通过该通道激活的二阶范数计算，即，前向传播过程变为，所以实际分解时，分解的权重矩阵是这个

ASVD: Activation-aware Singular Value Decomposition for Compressing Large Language...

BCQ: Block Clustered Quantization for 4-bit (W4A4) LLM Inference阅读笔记创新点1：将向量聚块量化对于一个有元素的向量，将连续个元素分为一个块，用个密码本进行量化整个量化过程分为两步：第一步为每个块分配一个密码本用于量化，第二步在相应密码本里寻找每个元素用于量化的条目。每个块可视为一个array，共享一个缩放参数，每个向量有一个缩放参数，将量化到位。最终该方法占用的实际位宽为：创新点2：局部最优块聚类量化算法最初利用Kmeans++算法初始化密码本中的元素，固定密码本，根据MSE寻找每个块的最优密码本，即：再固定密码本选择策略，利用LloydMax算法为每个密码本寻找最优元素，反复迭代直至收敛或达到指定次数。

BoA: Attention-aware Post-training Quantization without Backpropagation阅读笔记motivation基于梯度的重建优化方法受参数规模限制难以迁移到大语言模型上，传统的基于变换的量化方法又欠考虑了层间关系，因此提出了一种无需BP，综合考虑QKVO层相互依赖的量化方法。创新点1：基于QKVO层相互依赖的重建优化方法本方法于GPTQ类似，在量化后对其余未量化权重进行更新以补偿量化损失，更新公式：其中H是Hessian矩阵，Chol(·)代表Cholesky分解，因此U是上三角矩阵且为了弥补GPTQ的Hessian估计方法只与输入有关，与注意力模块其他层无关的问题，本方法提出了新的Hessian估计方法：推导主要利用了对于的二阶导是，其中J为关于softmax函数的Jacobian矩阵。创新点2：高效实现relaxed...

CBQ: Cross-Block Quantization for Large Language...