Unveiling the Knowledge of CLIP for Training-Free Open-Vocabulary Semantic Segmentation阅读笔记

总览

语义分割时,视觉编码器的输出可看作:

屏幕截图2025-04-30111727.png

当前面对两大问题:一是模型深层的注意力会关注到一些无关的信息,二是深层的会收到主导类的污染。因此要从合适的层中选取,并减少中的污染。

模块一:Coherence Enhanced Residual Attention(CRA)

拼接单层多头注意力模块的所有输出,形成该层的,以为例,计算其亲和矩阵,将其大于一定阈值的两个patch看作同一类别,以原始语义分割掩码作为真值来判断预测的对错,定义最终预测的AUROC为特征一致性分数,对实行一样的操作,画图:

屏幕截图2025-04-30104022.png

可以发现,在较为中间的层,类间连贯性判断是最准的。传统方法使用self-self attention (SSA)来减少对于不相干区域的关注,但这种方法只考虑到了两个patch间的关系,没考虑到它们和其它patch间的关系,因此提出CRA,记为温度系数,是关系注意力模块,当这两个patch与某个共同的第三方patch之间的相似性均超过阈值 时,就赋予它们之间的权重:

屏幕截图2025-04-30105753.png

模块二:Deep Semantic Integration(DSI)

本文认为最后一层的被主导类别污染了的原因是注意力机制将全局信息扩散到了patch的局部信息中,为验证这种观点,将注意力机制剔除出前向传播过程,得到:

屏幕截图2025-04-30110324.png

定义逐像素的平均预测准确率为跨模态语义对齐分数,结合特征一致性分数,画图:

屏幕截图2025-04-30110737.png

可发现层越深跨模态语义越对齐,类间连贯性越低。为了平衡两种能力,将不同层的结合起来作为最后一层的如下图:

屏幕截图2025-04-30111422.png