AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding阅读笔记

motivation

token冗余度随时间(不同帧)和模型层数的变化大,需要动态分配压缩率的方法。

创新点1:根据热点token比率衡量冗余性

记注意力头个数,提示长度、视频token长度,对于第层,其注意力分数为,接着计算每个视频token头平均提示和注意力分数:

屏幕截图2025-03-20012659.png

最终热点token比率可定义为:

屏幕截图2025-03-20012905.png

其中为指示函数,p为常量,本方法使用0.01。

创新点2:时间自适应压缩率分配

将每帧看作一个块,其中每帧含有N个token。每个块中相邻帧的距离可以看作

屏幕截图2025-03-20013628.png

其中Sim(·)代表余弦相似度函数,对其求元素平均得到第i个块的平均帧距离,以表示该块内的时间冗余度,每块的压缩率最后为:

屏幕截图2025-03-20013944.png

其中是最终KV Cache中存储的总序列长度。

创新点3:层自适应压缩率分配

对于每层先计算创新点1中每个视频token头平均提示和注意力分数,接着计算具有较大注意力得分的token数目:

屏幕截图2025-03-20014455.png

其中K-th(·)代表前K个最大的值元素,代表向量拼接,每层的压缩率重新分配为:

屏幕截图2025-03-20014621.png

为了保证数值稳定性(部分层可能为0),引入小量

屏幕截图2025-03-20014722.png

最终根据该压缩率进行KV Cache里的token压缩:
屏幕截图2025-03-20015024.png