MoVideo

发表于2025-06-08|更新于2025-06-08

|浏览量:

MoVideo: Motion-Aware Video Generation with Diffusion Model阅读笔记

整体架构

屏幕截图2025-06-08100312.png

首先根据文本生成关键帧（利用现有T2I模型）；再从关键帧中生成视频的深度和光流；根据关键帧、光流、深度生成视频潜变量；利用基于流增强和特征细化的解码器解码视频。
从视频深度和光流两方面感知运动。深度信息用于指导每一帧的空间布局，并通过一系列深度图来捕捉视频中的运动变化；光流用于表示视频中不同帧之间的对应关系，可用于帧对齐，从而保留细节并增强时间一致性。

阶段2：深度与光流生成

将关键帧送入使用文本-图像双编码器的模型，提取最后一个池化层前的图像嵌入。之所以在池化层前提取是因为池化可能会破坏图像语义、空间布局和局部细节。
利用该嵌入与每秒帧数（fps）共同利用扩散模型生成视频深度，图像到视频的光流，视频到图像的光流。

屏幕截图2025-06-08104525.png

在生成光流时，本文生成的是从关键帧到其他帧的光流.
- 可以从关键帧通过光流直接获得其它所有帧，避免光流变形误差的积累。
- 可以一次对所有光流进行正则化。
在2D空间卷积/注意力模块后加入1D的时间卷积/注意力模块。

屏幕截图2025-06-08104747.png

将深度和光流归一化到间：

屏幕截图2025-06-08105440.png

归一化后，为获得原始光流值进行变形，通过基于优化的方法从归一化后的深度和光流中推测原始光流最大值：

屏幕截图2025-06-08105606.png

阶段3：基于深度和光流的视频生成

首先利用预训练的隐变量编码器将关键帧编码为。
利用隐变量计算遮挡掩码和变形的视频潜变量，其中是非遮挡区域的阈值：

屏幕截图2025-06-08123859.png

再次用扩散模型预测视频潜变量：

屏幕截图2025-06-08124403.png

将视频深度 d、变形视频潜变量和遮挡掩码 m 与 z 连接起来，输入UNet。直接拼接时，由于其中一些错误的运动会影响视频生成，因此以0.5的概率将替换为全0。

阶段4：光流增强的视频解码

将原先的2D解码器层扩展成3D：
通过光流引导的可变形卷积显式对齐关键帧特征与每一帧的特征，以融合跨帧信息

屏幕截图2025-06-08125057.png

将对其后的特征和原特征融合，有：

屏幕截图2025-06-08125400.png

记解码后的视频为，原始视频为，则解码器训练损失可表示为：

屏幕截图2025-06-08125530.png

文章作者: Wotoosh

文章链接: https://wotoosh.github.io/2025/06/08/MoVideo/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源由本自性清净故，令诸爱染悉无垢！

physics-based video generation

相关推荐

MotionCraft: Physics-based Zero-Shot Video Generation阅读笔记motivation 发现对于视频中的任意两帧，其在像素空间中估算的光流，与在 Stable Diffusion（SD）相应噪声潜空间中估算的光流具有强相关性。在MSU Video Frame Interpolation Benchmark数据集上进行实验，对原始图像与加了400步噪声的潜变量上的光流计算了余弦相似度，得到0.727，证明二者有着强相关性。整体框架使用自回归方式，利用第一帧和生成当前帧先利用VAE编码至隐空间，并利用DDIM分别加噪至得到、分别在上应用光流扭曲算子（根据不同的物理现象分类使用不同的库）得到对进行反向去噪得到第帧图像整体伪代码如下：创新模块1：Multiple Cross-Frame...

PhysGen: Rigid-Body Physics-Grounded Image-to-Video...

GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning阅读笔记motivation 受这些 LLM 辅助方法的启发，本文提出了一种新的视角来解决运动不连贯问题。提出了一个利用 GPT-4 的战略规划能力、Blender 的物理模拟能力以及 Stable Diffusion 的卓越图像生成能力的无需训练的视频合成框架。主要针对刚性物体、布料、液体进行模拟。阶段一：利用GPT4使用Blender物理模拟针对GPT-4直接在Blender中创建 3D 模型困难的问题，作者收集了日常生活中的常见3D物体模型，并可以通过脚本根据文本提示自动加载 3D 模型。指导GPT-4对一些完成场景初始化与渲染功能、对象创建与导入功能、物理效果功能的函数进行封装。在自主设计的通用提示模板嵌入封装的 Blender 函数、外部资源和指令，直接引导 GPT-4 生成相应的 Blender Python 脚本。Blender...