Semi-Supervised Multimodal Classification Through Learning from Modal and Strategic Complementarities阅读笔记

motivation

  • 模态互补性:不同模态对于类别预测的贡献度不同。
  • 决策互补性:不同生成伪标签的模态融合策略优缺点不同。

创新点1:模态互补

当使用不同模态预测的平均分数时,会出现模态干扰(modality interference)问题,即即使一个模态预测对了,但另一个模态预测错误,最终融合后的预测结果仍可能错误。

为了解决这个问题,设计了一个modal reliability generator去判定不同模态的可行度,记代表文本模态的可信度,代表图像模态的可行度,则模态可行度计算公式为:

屏幕截图2025-04-21210151.png

对于Score Fusion方法,最终的预测概率变为:

屏幕截图2025-04-21205730.png

为了解决弱模态收敛速度慢的问题,引入Label Consistency Guidance (LCG)方法, 首先收集不同模态对于强增强后的无标签数据和无增强的有标签数据的预测结果:

屏幕截图2025-04-21210718.png

接着计算模态指引度G,其越大代表该模态越可靠,对于有标签数据这里的替换成真实标签:

屏幕截图2025-04-21210927.png

最终使用KL散度构造用于modal reliability generator的训练,促使其生成的模态可信度接近真实的模态指引度G:

屏幕截图2025-04-21211429.png

为了解决弱模态产生的梯度过小不足以支持训练的问题,引入Modal Reliability Guidance(MRG)模块促使弱模态向强模态学习。

先将原始数据集分成文本模态更强的子数据集和图像模块更强的子数据集,该模块的损失函数为:

屏幕截图2025-04-21212011.png

创新点2:策略互补

通过经验,Score Fusion方法通常能标出的样本量更少,但质量更高;Feature Concat方法通常能标出的样本量更多,但质量更低。

从无标签数据子集中选取两种策略预测出的伪标签一致且最大概率高于阈值的数据子集

屏幕截图2025-04-22000411.png

用这部分数据与有标签数据一起构成

仿照MRG,构造Score Fusion表现更好地数据集和Feature Concat表现更好的数据集Strategic Complementarity Guidance(SCG)模块的损失函数:

屏幕截图2025-04-22005345.png

总体架构

最终MSC框架的损失函数为:

屏幕截图2025-04-22005547.png

其中是衡量三种损失的权重系数,最终使用Score Fusion和Feature Concat概率的平均作为MSC框架的输出。整体框架图为:

屏幕截图2025-04-22005745.png