Towards Training-free Anomaly Detection with Vision and Language Foundation Models阅读笔记

motivation

现有的大多异常检测方法着重于结构异常(structural anomaly)的检查而忽略了逻辑异常(logical anomaly),为此提出了一个可以同时检查两种异常的框架。

屏幕截图2025-04-23141903.png

模块一:Match-of-thought(MoT)

收到思维链(CoT)方法的启发,MoT分多步完成prompt and match engineering。

首先使用GPT-4V生成无异常图像的文字说明和匹配提案,接下来总结文本提示的interests并制定了相应的异常检测需要检查的规则。

屏幕截图2025-04-23161726.png

模块二:多粒度异常检测器

Patch-level

使用CLIP和DINOv2提取不同层级的patch feature,记是被检查图像的patch feature,是无异常图像库中的任一patch feature,则patch-level的异常分数为:

屏幕截图2025-04-23162302.png

interest-level

使用CLIP和SAM,根据MoT中获得的interests,提取相应的featue并通过平均池化聚合。记是被检查图像对应于个interests的feature,是无异常图像库中的相应的参考图像对应于个interests的feature。则其异常分数计算可看作二分图匹配问题,可通过匈牙利算法求解。

屏幕截图2025-04-23163511.png

其中:

屏幕截图2025-04-23163550.png

composition-level

使用CLIP提取图像目标和文字嵌入,记检查规则为,则结构层面的异常分数可计算为:

屏幕截图2025-04-23163842.png

其中代表相应图像目标和文字嵌入是否符合检查规则。

最终分数的归一化融合

首先使用无异常图像集计算patch-level异常分数的均值和方差和interest-level的异常分数的均值和方差,最终被检测图像的异常分数则可记作:

屏幕截图2025-04-23164455.png

其中$g(·)是Sigmoid函数。

整体过程

屏幕截图2025-04-23164741.png