PhysGen
PhysGen: Rigid-Body Physics-Grounded Image-to-Video...
MotionCraft
MotionCraft: Physics-based Zero-Shot Video Generation阅读笔记motivation 发现对于视频中的任意两帧,其在像素空间中估算的光流,与在 Stable Diffusion(SD)相应噪声潜空间中估算的光流具有强相关性。 在MSU Video Frame Interpolation Benchmark数据集上进行实验,对原始图像与加了400步噪声的潜变量上的光流计算了余弦相似度,得到0.727,证明二者有着强相关性。 整体框架 使用自回归方式,利用第一帧和生成当前帧 先利用VAE编码至隐空间,并利用DDIM分别加噪至得到、 分别在上应用光流扭曲算子(根据不同的物理现象分类使用不同的库)得到 对进行反向去噪得到第帧图像 整体伪代码如下: 创新模块1:Multiple Cross-Frame...
CLIPSeg
Unveiling the Knowledge of CLIP for Training-Free Open-Vocabulary Semantic Segmentation阅读笔记总览语义分割时,视觉编码器的输出可看作: 当前面对两大问题:一是模型深层的注意力会关注到一些无关的信息,二是深层的会收到主导类的污染。因此要从合适的层中选取,并减少中的污染。 模块一:Coherence Enhanced Residual Attention(CRA)拼接单层多头注意力模块的所有输出,形成该层的、、,以为例,计算其亲和矩阵,将其大于一定阈值的两个patch看作同一类别,以原始语义分割掩码作为真值来判断预测的对错,定义最终预测的AUROC为特征一致性分数,对、实行一样的操作,画图: 可以发现,在较为中间的层,类间连贯性判断是最准的。传统方法使用self-self attention...
ProPETL
Progressive Parameter Efficient Transfer Learning for Semantic Segmentation阅读笔记总览从分类到语义分割的迁移学习需要改变大量参数,现有迁移学习方法表现不佳。为此引入带中间任务的渐进式学习方法,将迁移过程分为两个阶段:中游适应阶段和下游微调阶段,首次在COCO-Stuff10k上效果超过全量微调。 渐进式迁移学习方法选择备选方案1:Generalized Parametric Adaptation(GPA)在FFN层中引入bottleneck结构随机初始化的adaption module,使得前向传播过程变为: 中游适应阶段时,冻结原始权重参数,只更新的adaption module的权重,记、分别为中间任务的损失函数和训练数据,优化目标为: 下游微调时,优化目标变为: 备选方案2:Decoupled Structured Adaptation(DSA)同样在FFN层中引入bottleneck结构随机初始化的adaption...
KnowledgeBridger
Knowledge Bridger: Towards Training-Free Missing Modality Completion阅读笔记motivation现有的模态缺失信息补全方法(Missing modality completion、MMC)依赖于大量的训练数据,且泛化效果不佳,面对OOD数据表现较差。 本方法是第一个在MMC领域使用多模态大模型的方法,总体分三步走,先使用LMM提取关键信息生成知识图,再驱使LMM生成候选缺失信息,最后对各候选进行评分,输出分数最高项。 步骤一:知识图建模 使用LMM通过CoT方法抽取可用模态信息中的实体、关系、特性等关键元素:首先驱使LMM对每个提取规则生成一段较为精简回复,再从回复中抽取相应的实体关系对。 对于部分较为专业的领域使用上下文学习方法注入相关先验知识。 步骤二:生成候选缺失信息对于缺失的信息对应的实体O,遍历知识图中所有与实体O相邻的元素,让LMM以每个元素作为主体,同时涵盖知识图谱中的所有节点和属性生成缺失信息的文字描述。并将这些文字描述根据缺失信息的类别传入diffusion...
LogSAD
Towards Training-free Anomaly Detection with Vision and Language Foundation Models阅读笔记motivation现有的大多异常检测方法着重于结构异常(structural anomaly)的检查而忽略了逻辑异常(logical anomaly),为此提出了一个可以同时检查两种异常的框架。 模块一:Match-of-thought(MoT)收到思维链(CoT)方法的启发,MoT分多步完成prompt and match engineering。 首先使用GPT-4V生成无异常图像的文字说明和匹配提案,接下来总结文本提示的interests并制定了相应的异常检测需要检查的规则。 模块二:多粒度异常检测器Patch-level使用CLIP和DINOv2提取不同层级的patch feature,记是被检查图像的patch feature,是无异常图像库中的任一patch...
MSC
Semi-Supervised Multimodal Classification Through Learning from Modal and Strategic Complementarities阅读笔记motivation 模态互补性:不同模态对于类别预测的贡献度不同。 决策互补性:不同生成伪标签的模态融合策略优缺点不同。 创新点1:模态互补当使用不同模态预测的平均分数时,会出现模态干扰(modality interference)问题,即即使一个模态预测对了,但另一个模态预测错误,最终融合后的预测结果仍可能错误。 为了解决这个问题,设计了一个modal reliability generator去判定不同模态的可行度,记代表文本模态的可信度,代表图像模态的可行度,则模态可行度计算公式为: 对于Score Fusion方法,最终的预测概率变为: 为了解决弱模态收敛速度慢的问题,引入Label Consistency Guidance (LCG)方法,...
MPR
A multi-projection recurrent model for hypernym detection and discovery阅读笔记background上位词检测(hypernym discovery)任务致力于检测给定下位词(hyponym)的所有上位词。 上位词发现(hypernym detection)任务致力于判断两个词间是否有上下位关系或者判断上下位方向。 motivation 上位词之间是由层次关系的,现有方法不能很好的建模这种层级关系。 一个下位词可能有多个不同意义的上位词。 整体方法 类别表示增强(Type enhanced representation)下位词大致可分为两个类别:有名实体和概念。考虑到在众多的超类任务中,有些任务会为下位词提供明确的类型信息,而有些任务则不会提供。鉴于这种情况,本文提出了一种松耦合的类型增强表示模块。这个模块能够灵活地根据是否有类型信息可用而被添加或者移除。 记是下位词x的嵌入向量,是相应类别的投影矩阵,则该过程可表示为 多投影映射模块(Multi-projection mapping...
QEP
Quantization Error Propagation: Revisiting Layer-Wise Post-Training...
SliceGPT
SliceGPT: Compress Large Language Models by Deleting Rows and...