由本自性清净故，令诸爱染悉无垢

发表于2025-06-14

ART·V: Auto-Regressive Text-to-Video Generation with Diffusion Models阅读笔记motivation 认为递归式的基于前一帧生成下一帧只需要模型学习相邻帧间的运动即可，比长距离运动学起来更简单。对原始T2I模型改动较小，能够保留其高保真的生成能力。让模型更多的从参考图像中提取信息，而不是完全依赖于去噪过程。模块1：结合掩码的扩散模型（MDM）将待生成帧的前两帧作为参考帧在通道维度上拼接后，以T2I-Adapter的方式注入到Stable Diffusion 2.1中辅助当前帧生成。记参考帧为，动态噪声预测U-Net为，动态掩码预测的U-Net为...

Dysen-VDM

发表于2025-06-13

Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs阅读笔记motivation当前的T2V生成任务存在较低的帧数，不流畅的视频过渡，粗糙的视频运动，以及混乱的动作等问题。语言提及的一系列动作可能并不严格符合物理上的实际发生顺序，因此，正确组织事件的语义时序至关重要。提示文本不可能涵盖所有动作场景，需对其合理丰富。上述过程应使用结构化的语义表示。应实现细粒度的时空特征建模，从而确保视频生成在时间上的连贯性。创新点1：动态场景管理器阶段1：动作规划使用ChatGPT利用上下文学习使其根据文本提示输出任务规划，形式为 “(agent, event-predicate, target, (start-time, end-time))”，以原子时间为单位计算事件所需要的时间。阶段2：动态场景图生成根据动作规划为每一帧生成一个场景图。场景图包含对象、属性和关系三种类型的节点，其中一些场景对象通过特定的关系相互连接，构成了空间语义三元组...

MultiDiffusion

发表于2025-06-12

MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation阅读笔记motivation 用户对于生成图像的内容的控制以及对新任务的适应一直是T2I领域的难题。本文旨在利用预训练的T2I模型，在不微调的情况下用一个统一的框架应对多种图像生成任务。 MultiDiffusion方法记预训练模型为，其被训练在条件下生成。扩散过程可表示为：新任务要在条件空间下，生成分辨率为的图像。扩散过程可表示为：记从目标图像空间到原图像空间的映射为，条件映射函数本方法和底层目标为希望本方法的每一步去噪与原始模型的去噪尽可能相近，当下述FTD损失为0时，在每个时间步中，局部区域的结果都“跟随”了参考模型的预测路径，因此该问题可视作优化与尽可能相似：当直接对原始图像进行裁剪时，可得到闭式最优解：伪代码：

Lumiere

发表于2025-06-12

Lumiere: A Space-Time Diffusion Model for Video Generation阅读笔记motivation 现有的时间超分辨率（TSR）模型先生成远距离关键帧，再插帧成视频，造成高频运动的混叠现象。级联训练方案通常会受到domain gap的影响，其中TSR模型在训练时使用的是真实的下采样视频帧，但在推理时却用于生成插值的帧，这会导致误差累积。创新点1：时空U-Net（STUNet）在原始U-Net中加入时间处理模块：在除了最粗粒度（最中间）外的所有层中加入分解的时空卷积。其将原始的3D卷积分解成一个空间的2D卷积和时间的1D卷积，在降低计算成本，提高模型的表达能力。在最粗粒度的层中加入时间注意力层，由于时间注意力的计算需求随帧数呈二次增长，在低维特征图上操作使我们能够在堆叠多个时间注意力块的同时保持较低的计算开销。常见的时间维度扩充方法确保在初始化时，T2V模型等效于预训练的 T2I...

DreamBooth

发表于2025-06-11

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation阅读笔记motivation 现有T2I模型缺乏模拟参考图像中物体外观的能力，并且无法在不同的上下文中生成不同该物体的图像。整体架构创新点1：绑定类别实例与唯一标识符为了避免为给定的图像集撰写详细的图像描述所带来的额外工作，本文选择了一种更简单的方法，将所有输入图像标注为 “a [identifier] [class noun]”，其中： identifier：是与该主体绑定的唯一标识符。 class noun：该主体的粗略类别描述（例如 cat、dog、watch...

AnimateDiff

发表于2025-06-11

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning阅读笔记motivation 解决个性化 T2I 动画生成的问题，同时保持其视觉质量和预训练模型中相关领域的知识。创新点1：域适应器由于视频数据集的质量远低于图像数据集，为了避免因数据质量较低而影响训练效果，本文在基础 T2I 模型的自注意力层和交叉注意力层中引入 LoRA...

LAMP

发表于2025-06-10

LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation阅读笔记motivation如何更好的平衡微调T2I模型以达到T2V中的生成自由度和时间连贯度：由于训练数据过小，易造成过拟合，伤害生成自由度。 T2I扩散模型的主要针对空间维度的操作，从视频中提取活动信息的能力可能不足。整体架构：创新点1：首帧约束的生成过程将视频编码为潜变量序列。在训练时保留第一帧潜变量，并对所有后续帧加噪，则训练的损失函数可改写成： ...

Text2Video-Zero

发表于2025-06-10

Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators阅读笔记motivation提出了“零样本文生视频”任务，在不经过进一步微调或者优化的前提下，只利用预训练的文生图模型生成视频。整体架构：创新点1：在潜变量中融入运动信息如行1，随机初始化第一帧的潜变量。如行2，对第一帧使用Stable...

GPT4Motion

发表于2025-06-09

GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning阅读笔记motivation 受这些 LLM 辅助方法的启发，本文提出了一种新的视角来解决运动不连贯问题。提出了一个利用 GPT-4 的战略规划能力、Blender 的物理模拟能力以及 Stable Diffusion 的卓越图像生成能力的无需训练的视频合成框架。主要针对刚性物体、布料、液体进行模拟。阶段一：利用GPT4使用Blender物理模拟针对GPT-4直接在Blender中创建 3D 模型困难的问题，作者收集了日常生活中的常见3D物体模型，并可以通过脚本根据文本提示自动加载 3D 模型。指导GPT-4对一些完成场景初始化与渲染功能、对象创建与导入功能、物理效果功能的函数进行封装。在自主设计的通用提示模板嵌入封装的 Blender 函数、外部资源和指令，直接引导 GPT-4 生成相应的 Blender Python 脚本。Blender...

ED-VDM

发表于2025-06-08

Decouple Content and Motion for Conditional Image-to-Video...