由本自性清净故，令诸爱染悉无垢

发表于2025-06-08

MoVideo: Motion-Aware Video Generation with Diffusion...

发表于2025-06-07

PhysGen: Rigid-Body Physics-Grounded Image-to-Video...

发表于2025-06-06

MotionCraft: Physics-based Zero-Shot Video Generation阅读笔记motivation 发现对于视频中的任意两帧，其在像素空间中估算的光流，与在 Stable Diffusion（SD）相应噪声潜空间中估算的光流具有强相关性。在MSU Video Frame Interpolation Benchmark数据集上进行实验，对原始图像与加了400步噪声的潜变量上的光流计算了余弦相似度，得到0.727，证明二者有着强相关性。整体框架使用自回归方式，利用第一帧和生成当前帧先利用VAE编码至隐空间，并利用DDIM分别加噪至得到、分别在上应用光流扭曲算子（根据不同的物理现象分类使用不同的库）得到对进行反向去噪得到第帧图像整体伪代码如下：创新模块1：Multiple Cross-Frame...

CLIPSeg

发表于2025-04-30

Unveiling the Knowledge of CLIP for Training-Free Open-Vocabulary Semantic Segmentation阅读笔记总览语义分割时，视觉编码器的输出可看作：当前面对两大问题：一是模型深层的注意力会关注到一些无关的信息，二是深层的会收到主导类的污染。因此要从合适的层中选取，并减少中的污染。模块一：Coherence Enhanced Residual Attention（CRA）拼接单层多头注意力模块的所有输出，形成该层的、、，以为例，计算其亲和矩阵，将其大于一定阈值的两个patch看作同一类别，以原始语义分割掩码作为真值来判断预测的对错，定义最终预测的AUROC为特征一致性分数，对、实行一样的操作，画图：可以发现，在较为中间的层，类间连贯性判断是最准的。传统方法使用self-self attention...

ProPETL

发表于2025-04-29

Progressive Parameter Efficient Transfer Learning for Semantic Segmentation阅读笔记总览从分类到语义分割的迁移学习需要改变大量参数，现有迁移学习方法表现不佳。为此引入带中间任务的渐进式学习方法，将迁移过程分为两个阶段：中游适应阶段和下游微调阶段，首次在COCO-Stuff10k上效果超过全量微调。渐进式迁移学习方法选择备选方案1：Generalized Parametric Adaptation（GPA）在FFN层中引入bottleneck结构随机初始化的adaption module，使得前向传播过程变为：中游适应阶段时，冻结原始权重参数，只更新的adaption module的权重，记、分别为中间任务的损失函数和训练数据，优化目标为：下游微调时，优化目标变为：备选方案2：Decoupled Structured Adaptation（DSA）同样在FFN层中引入bottleneck结构随机初始化的adaption...

KnowledgeBridger

发表于2025-04-28

Knowledge Bridger: Towards Training-Free Missing Modality Completion阅读笔记motivation现有的模态缺失信息补全方法（Missing modality completion、MMC）依赖于大量的训练数据，且泛化效果不佳，面对OOD数据表现较差。本方法是第一个在MMC领域使用多模态大模型的方法，总体分三步走，先使用LMM提取关键信息生成知识图，再驱使LMM生成候选缺失信息，最后对各候选进行评分，输出分数最高项。步骤一：知识图建模使用LMM通过CoT方法抽取可用模态信息中的实体、关系、特性等关键元素：首先驱使LMM对每个提取规则生成一段较为精简回复，再从回复中抽取相应的实体关系对。对于部分较为专业的领域使用上下文学习方法注入相关先验知识。步骤二：生成候选缺失信息对于缺失的信息对应的实体O，遍历知识图中所有与实体O相邻的元素，让LMM以每个元素作为主体，同时涵盖知识图谱中的所有节点和属性生成缺失信息的文字描述。并将这些文字描述根据缺失信息的类别传入diffusion...

LogSAD

发表于2025-04-23

Towards Training-free Anomaly Detection with Vision and Language Foundation Models阅读笔记motivation现有的大多异常检测方法着重于结构异常（structural anomaly）的检查而忽略了逻辑异常（logical anomaly），为此提出了一个可以同时检查两种异常的框架。模块一：Match-of-thought（MoT）收到思维链（CoT）方法的启发，MoT分多步完成prompt and match engineering。首先使用GPT-4V生成无异常图像的文字说明和匹配提案，接下来总结文本提示的interests并制定了相应的异常检测需要检查的规则。模块二：多粒度异常检测器Patch-level使用CLIP和DINOv2提取不同层级的patch feature，记是被检查图像的patch feature，是无异常图像库中的任一patch...

MSC

发表于2025-04-22

Semi-Supervised Multimodal Classification Through Learning from Modal and Strategic Complementarities阅读笔记motivation 模态互补性：不同模态对于类别预测的贡献度不同。决策互补性：不同生成伪标签的模态融合策略优缺点不同。创新点1：模态互补当使用不同模态预测的平均分数时，会出现模态干扰（modality interference）问题，即即使一个模态预测对了，但另一个模态预测错误，最终融合后的预测结果仍可能错误。为了解决这个问题，设计了一个modal reliability generator去判定不同模态的可行度，记代表文本模态的可信度，代表图像模态的可行度，则模态可行度计算公式为：对于Score Fusion方法，最终的预测概率变为：为了解决弱模态收敛速度慢的问题，引入Label Consistency Guidance (LCG)方法，...

MPR

发表于2025-04-20

A multi-projection recurrent model for hypernym detection and discovery阅读笔记background上位词检测（hypernym discovery）任务致力于检测给定下位词（hyponym）的所有上位词。上位词发现（hypernym detection）任务致力于判断两个词间是否有上下位关系或者判断上下位方向。 motivation 上位词之间是由层次关系的，现有方法不能很好的建模这种层级关系。一个下位词可能有多个不同意义的上位词。整体方法类别表示增强（Type enhanced representation）下位词大致可分为两个类别：有名实体和概念。考虑到在众多的超类任务中，有些任务会为下位词提供明确的类型信息，而有些任务则不会提供。鉴于这种情况，本文提出了一种松耦合的类型增强表示模块。这个模块能够灵活地根据是否有类型信息可用而被添加或者移除。记是下位词x的嵌入向量，是相应类别的投影矩阵，则该过程可表示为多投影映射模块（Multi-projection mapping...

QEP

发表于2025-04-16

Quantization Error Propagation: Revisiting Layer-Wise Post-Training...