由本自性清净故,令诸爱染悉无垢

由本自性清净故,令诸爱染悉无垢

KurTail
发表于2025-03-12
KurTail : Kurtosis-based LLM Quantization阅读笔记motivation对于使用旋转矩阵来抚平outlier的方法,随机旋转矩阵不够优,端到端loss训练的学习旋转矩阵又太费计算资源,于是提出了一种聚焦于tail density(通常指的是概率分布尾部的概率密度,即随机变量取值在远离分布中心的区域的概率密度,它反映了分布尾部的“厚重”程度)的旋转矩阵学习方法。 背景补充峰度 表征概率密度分布曲线在平均值处峰值高低的特征数,直观看来,峰度反映了峰部的尖度。 计算公式: 正态分布峰度为3,大于3为正峰度,代表数据中有更多的极端值。 主要创新点:基于峰度的旋转矩阵学习方法 基于峰度的损失函数: 其中,代表将第层所有激活进行拼接。 采用逐层优化策略,首先运行原始模型并存储MHSA和FFN块的输入,然后创建一个只有一个线性层的小模型来模拟量化前的输入,最后使用Kurtosis损失函数训练旋转。为了进一步优化,在训练时将不同层的输入混在一起。 为了在不量化的时候模型输出不变,旋转矩阵的学习需要在正交空间内进行优化,使用Caley...
ReQuant
发表于2025-03-08
Identifying Sensitive Weights via Post-quantization Integral阅读笔记对于现有的敏感度指标的分析现有的敏感度指标主要基于梯度与Hessian矩阵(使用Fisher准则估计) 由于模型量化后的权重可能超出收敛半径,导致泰勒展开近似失效,传统的Hessian矩阵估计也不准。 层与层间互相不独立,单独计算每层的权重敏感度变得不可靠。 创新点1: 后量化积分(PQI)通过积分路径上的梯度信息,能够更准确地估计量化对损失函数的影响,即将量化损失计算改写为 其中C是从到的任意路径,PQI可定义为 量化损失差改写为 其中代表取每个元素的绝对值,防止正负梯度项相互抵消,以提高泛化性。 在实际使用时,使用矩形估计的方法: 由于F的增长与成线性,因此解决了层间不独立的问题;由于PQI将路径分成很多小段,使得每段都落在收敛范围内,因此使得其估计值保持准确。 观察到较浅的层往往有较大的,且一层中的不同projection...
SVDQuant
发表于2025-03-07
SVDQuant: Absorbing Outliers by Low-Rank Component for 4-Bit Diffusion Models阅读笔记motivation LLM 的时延主要受权重加载的限制,但扩散模型则计算量较大,仅量化权重无法实际加速扩散模型 扩散模型的权重和激活都对于outlier很敏感,使得传统的将量化难度从激活转移至权重的方法走不通。 Proposition误差分解量化误差可分解为,其中F代表Frobenius范数(所有元素绝对值的平方和的平方根)。 量化误差界对于形似所有的量化过程中的向量R,假设 R 的元素服从正态分布,则有 ,其中size(R)是R中的元素数 创新点1:通过低秩分支吸收outlier 整体流程图 首先引入逐通道缩放参数将outlier从激活转移至权重上。 接着引入残差分支,将权重转化为,其中,在量化时低秩分支保持FP16,残差部分量化至4bit,即 量化误差可表示为: ​ ...
OSTQuant
发表于2025-03-06
OSTQuant: Refining Large Language Model Quantization with Orthogonal and Scaling Transformations for Better Distribution Fitting阅读笔记motivation 现有LLM量化面临两大挑战: LLM的权重与激活值通常具有非对称、重尾分布特征以及通道间方差差异。 校准集较小,传统损失函数(如交叉熵)容易在小样本下过拟合 现有改善数据分布的方法依赖启发性设计,缺乏系统性评估。 创新点1:量化空间利用率(QSUR) 对于原始数据占据的超体积,可以看作一个由协方差矩阵决定的椭圆形。对于一个d维的数据,其超体积计算公式为 其中是椭球体半轴长度的连乘,卡方分布的引入,使其在给定置信水平 α...
LeanQuant
发表于2025-03-04
LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid阅读笔记motivation 认为传统的min-max对称网格量化无法很好地处理Hessian逆矩阵中的outlier。 基于OBQ思想,认为量化损失与权重量化误差的平方、逆Hessian矩阵对角的元素的倒数成正比 创新点:Loss-Error-Aware-Grid 核心思想:用逆Hessian矩阵对角的元素的倒数为量化误差加权。 非均匀网格 优化目标: 均匀间隔网格初始化,再通过kmeans进行学习 均匀网格 优化目标: 其中 R=max(w)-min(w)​,T是控制搜索粒度的超参数。 其它主要延续了GPTQ的思想,在GPTQ基础上做了网格量化。 document.addEventListener("DOMContentLoaded", function() { renderMathInElement(document.body, { ...
CBQ
发表于2025-03-03
CBQ: Cross-Block Quantization for Large Language...
AKVQ-VL
发表于2025-03-01
AKVQ-VL: Attention-Aware KV Cache Adaptive 2-Bit Quantization for Vision-Language Models阅读笔记motivation 认为现有KV Cache量化没有关注到多模态token间的显著性(saliency)区别 观察到多模态模型在初始层优先关注文本token(文本显著性注意力,TSA),而在后续层则关注少数关键token(关键token显著性注意力,PSA)。 与LLM都具有’local’ attention pattern,即都会更关注临近的token 与LLM不同,多模态模型PSA时的pivot token不光是开头的sink token,还有其他位置的token。 创新点1:显著性token识别 TSA层的显著token:text token和recent token。 PSA层的显著token:sink token(开头)和具有大激活值的token。 对于pivot token(PSA层显著token,recent token)使用fp16保存,对于text...
1…56
avatar
Wotoosh
文章
57
标签
13
分类
0
Follow Me
最新文章
JanusFlow2025-06-22
MonoFormer2025-06-22
Transfusion2025-06-21
LMFusion2025-06-21
VideoDirector2025-06-20
标签
Unified Multimodal Understanding and Generation SVD CNN video generation with visual continuity activation sparsity LMM personalizing T2I models physics-based video generation pruning other model controllable video generation diffusion model LLM
归档
  • 六月 2025 23
  • 四月 2025 17
  • 三月 2025 17
网站信息
文章数目 :
57
本站访客数 :
本站总浏览量 :
最后更新时间 :
©2019 - 2025 By Wotoosh
框架 Hexo 7.3.0|主题 Butterfly 5.3.3