BitStack

发表于2025-04-14|更新于2025-04-14

|浏览量:

BitStack: Any-Size Compression of Large Language Models in Variable Memory Environments阅读笔记

motivation

现有方法不能动态调整被压缩模型大小，且现有权重分解方法和量化方法间精度尚有差异。

创新点1：迭代式绝对值分解

将矩阵符号值分离，改写为，对使用SVD分解，权重矩阵单独保存，每参数多占用1bit。

对原始矩阵进行权重分解则变为：

屏幕截图2025-04-14004541.png

其残差可记作：

屏幕截图2025-04-14004833.png

对残差进行二次分解：

屏幕截图2025-04-14004923.png

总的权重分解估计公式则为，可以根据可用内存量动态决定load多少块：

屏幕截图2025-04-14005006.png

创新点2：动态加载排序

由创新点1显然第组低秩块比第组更重要。为减小最优策略搜索空间，规定任意两个线性层间加载了的低秩块组数差值不能超过1。

将模型的前组低秩块都加载完成后，分别加载每个线性层的第块并计算校准集的困惑度，困惑度越低的更加重要。

更重要的块在内存增加时会更优先被load

屏幕截图2025-04-14005711.png

其它

为了应对激活中的绝对值采用了AWQ中逐通道缩放的方法，缩放因子直接通过该通道激活的二阶范数计算，即，前向传播过程变为，所以实际分解时，分解的权重矩阵是这个

文章作者: Wotoosh

文章链接: https://wotoosh.github.io/2025/04/14/BitStack/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源由本自性清净故，令诸爱染悉无垢！

相关推荐

SVD-LLM: Truncation-aware Singular Value Decomposition for Large Language Model Compression阅读笔记motivation 当前基于奇异值分解的方法缺乏奇异值与量化损失函数之间具体的的关系证明，丢弃较小奇异值也可能导致较大的损失 SVD后没有对分解后的低秩向量微调补偿。创新点1：分解前数据白化首先收集校准数据，对进行Cholesky分解得到，取下三角矩阵作为白化矩阵，有：记将奇异值分解为、、，其中已知矩阵 A 的 Frobenius 范数（维度为 m×n）可以推导为它的 Gram...

Dobi-SVD: Differentiable SVD for LLM Compression and Some New Perspectives阅读笔记motivation认为分解激活（这里的激活指的不是输入，是）比分解权重更好，提出了激活SVD分解后接无需LoRA的权重补偿新范式。同时提出了一种新的SVD分解矩阵储存方法使得分解秩与压缩率的关系变成一种双射，在保留更多信息的同时提高压缩率。创新点1：逐层自动化目标秩判定每个模型有L层，每一层有M层，假设每层对应的激活有n个奇异值，则可选择的截断（舍弃top...

ASVD: Activation-aware Singular Value Decomposition for Compressing Large Language...

BCQ: Block Clustered Quantization for 4-bit (W4A4) LLM Inference阅读笔记创新点1：将向量聚块量化对于一个有元素的向量，将连续个元素分为一个块，用个密码本进行量化整个量化过程分为两步：第一步为每个块分配一个密码本用于量化，第二步在相应密码本里寻找每个元素用于量化的条目。每个块可视为一个array，共享一个缩放参数，每个向量有一个缩放参数，将量化到位。最终该方法占用的实际位宽为：创新点2：局部最优块聚类量化算法最初利用Kmeans++算法初始化密码本中的元素，固定密码本，根据MSE寻找每个块的最优密码本，即：再固定密码本选择策略，利用LloydMax算法为每个密码本寻找最优元素，反复迭代直至收敛或达到指定次数。

BoA: Attention-aware Post-training Quantization without Backpropagation阅读笔记motivation基于梯度的重建优化方法受参数规模限制难以迁移到大语言模型上，传统的基于变换的量化方法又欠考虑了层间关系，因此提出了一种无需BP，综合考虑QKVO层相互依赖的量化方法。创新点1：基于QKVO层相互依赖的重建优化方法本方法于GPTQ类似，在量化后对其余未量化权重进行更新以补偿量化损失，更新公式：其中H是Hessian矩阵，Chol(·)代表Cholesky分解，因此U是上三角矩阵且为了弥补GPTQ的Hessian估计方法只与输入有关，与注意力模块其他层无关的问题，本方法提出了新的Hessian估计方法：推导主要利用了对于的二阶导是，其中J为关于softmax函数的Jacobian矩阵。创新点2：高效实现relaxed...

CBQ: Cross-Block Quantization for Large Language...