ED-VDM

发表于2025-06-08|更新于2025-06-08

|浏览量:

Decouple Content and Motion for Conditional Image-to-Video Generation阅读笔记

motivation

将目标的RGB视频解耦为空间内容和时间运动两个模块，来应对运动一致性和视觉连续性的问题。
使用CodeC提取运动向量和残差，对视频进行压缩，减少存储或传输视频所需的数据量。

简单版：解耦空间与时间表示

是保留第一帧，然后计算它与后续帧的差值，记RGB像素空间中的视频表示为，其中为帧数，即：

屏幕截图2025-06-08182001.png

为了像差值中注入第一帧的内容，将第一帧解码为，并将其沿着通道维度和噪声学习目标进行拼接，训练目标，共同优化解码器和噪声预测器

屏幕截图2025-06-08182350.png

高效改进

仿照H.264的范式，将视频分为I-frame（含有全部图片信息的独立帧）和P-frame（通过运动向量和残差编码图像差异的预测帧）,使用可逆变换获得运动向量和残差，即$f(v)=$
记为当前帧，为上一帧，将分成若干个不重叠的像素块，记为。
对每个块中最小化绝对损失寻找其在当前帧中的相应块，进而获取运动向量：

屏幕截图2025-06-08191433.png

则相应残差可定义为，接着利用 $、$ 生成P-frame。
运动向量大小是原始图像的，残差大小与原图像相同。
使用潜变量扩散模型的自编码器Latent Diffusion autoencoder对其进行压缩，并使用损失对其进行训练。

屏幕截图2025-06-08192306.png

整体框架对比：

屏幕截图2025-06-08192215.png

文章作者: Wotoosh

文章链接: https://wotoosh.github.io/2025/06/08/ED-VDM/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源由本自性清净故，令诸爱染悉无垢！

video generation with visual continuity

相关推荐

Text2Video-Zero

Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators阅读笔记motivation提出了“零样本文生视频”任务，在不经过进一步微调或者优化的前提下，只利用预训练的文生图模型生成视频。整体架构：创新点1：在潜变量中融入运动信息如行1，随机初始化第一帧的潜变量。如行2，对第一帧使用Stable...

LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation阅读笔记motivation如何更好的平衡微调T2I模型以达到T2V中的生成自由度和时间连贯度：由于训练数据过小，易造成过拟合，伤害生成自由度。 T2I扩散模型的主要针对空间维度的操作，从视频中提取活动信息的能力可能不足。整体架构：创新点1：首帧约束的生成过程将视频编码为潜变量序列。在训练时保留第一帧潜变量，并对所有后续帧加噪，则训练的损失函数可改写成： ...

Lumiere: A Space-Time Diffusion Model for Video Generation阅读笔记motivation 现有的时间超分辨率（TSR）模型先生成远距离关键帧，再插帧成视频，造成高频运动的混叠现象。级联训练方案通常会受到domain gap的影响，其中TSR模型在训练时使用的是真实的下采样视频帧，但在推理时却用于生成插值的帧，这会导致误差累积。创新点1：时空U-Net（STUNet）在原始U-Net中加入时间处理模块：在除了最粗粒度（最中间）外的所有层中加入分解的时空卷积。其将原始的3D卷积分解成一个空间的2D卷积和时间的1D卷积，在降低计算成本，提高模型的表达能力。在最粗粒度的层中加入时间注意力层，由于时间注意力的计算需求随帧数呈二次增长，在低维特征图上操作使我们能够在堆叠多个时间注意力块的同时保持较低的计算开销。常见的时间维度扩充方法确保在初始化时，T2V模型等效于预训练的 T2I...

ART·V: Auto-Regressive Text-to-Video Generation with Diffusion Models阅读笔记motivation 认为递归式的基于前一帧生成下一帧只需要模型学习相邻帧间的运动即可，比长距离运动学起来更简单。对原始T2I模型改动较小，能够保留其高保真的生成能力。让模型更多的从参考图像中提取信息，而不是完全依赖于去噪过程。模块1：结合掩码的扩散模型（MDM）将待生成帧的前两帧作为参考帧在通道维度上拼接后，以T2I-Adapter的方式注入到Stable Diffusion 2.1中辅助当前帧生成。记参考帧为，动态噪声预测U-Net为，动态掩码预测的U-Net为...

VideoDPO: Omni-Preference Alignment for Video Diffusion Generation阅读笔记motivation 针对 T2V 数据质量的评估，可以从视频质量和语义对齐两个维度展开。由于视觉质量与语义对齐之间的相关性较低，同时视觉质量中的各个细分指标之间也缺乏较强的关联性，因此需要一种能够同时囊括这两个方向的综合评分标准。部分正负样本间的差异较小，模型在对比学习时应更多关注那些差异显著的样本对。总体架构创新点1：OmniScore为了同时评估视频质量和语义对齐，本文提出了Omniquant，从帧内质量、帧间质量以及语义对齐度三个方向进行评估。对于不同的评估方向使用不同的指标和模型进行评估，评估后将其每个维度缩放到，再加权计算最终的OmniScore。对于运动平滑度，使用Amt（一个视频插帧模型）的运动先验判断；对于物体连贯度，计算跨帧的 DINO 特征相似度；对于时间闪烁程度，使用RAFT得到静态帧后计算帧间的绝对值差的平均；对于动态程度，也使用RAFT评估；对于图像质量，使用在 SPAQ 数据集上训练的...