Knowledge Bridger: Towards Training-Free Missing Modality Completion阅读笔记

motivation

现有的模态缺失信息补全方法(Missing modality completion、MMC)依赖于大量的训练数据,且泛化效果不佳,面对OOD数据表现较差。

本方法是第一个在MMC领域使用多模态大模型的方法,总体分三步走,先使用LMM提取关键信息生成知识图,再驱使LMM生成候选缺失信息,最后对各候选进行评分,输出分数最高项。

屏幕截图2025-04-28000832.png

步骤一:知识图建模

  • 使用LMM通过CoT方法抽取可用模态信息中的实体、关系、特性等关键元素:首先驱使LMM对每个提取规则生成一段较为精简回复,再从回复中抽取相应的实体关系对。

  • 对于部分较为专业的领域使用上下文学习方法注入相关先验知识。

步骤二:生成候选缺失信息

对于缺失的信息对应的实体O,遍历知识图中所有与实体O相邻的元素,让LMM以每个元素作为主体,同时涵盖知识图谱中的所有节点和属性生成缺失信息的文字描述。并将这些文字描述根据缺失信息的类别传入diffusion model/LMM。

对于图像类的缺失信息使用diffusion model生成,对于文字类的确实信息使用LMM生成。

步骤三:对候选缺失信息排序

首先对知识结构相似性计算分数,记为两不同邻接矩阵,分别是两矩阵的第行,是矩阵的欧氏距离,分别是矩阵的行列数,则其知识图相似分数为:

屏幕截图2025-04-28000129.png

接下来要对不同模态间的语义连贯程度计算分数,仍然采用余弦距离,其中是使用多模态模型获得的不同模态的语义向量。

为计算邻接矩阵,为使用BLIP获得语义向量,为使用CLIP获得语义向量,最终的候选信息的总得分为:

屏幕截图2025-04-28000703.png

分数越高代表生成的候选确实信息越可靠,最终输出分数最高的候选缺失信息。

其它

所有实验只用了4张24G的4090