Decouple Content and Motion for Conditional Image-to-Video Generation阅读笔记

motivation

  • 将目标的RGB视频解耦为空间内容和时间运动两个模块,来应对运动一致性和视觉连续性的问题。
  • 使用CodeC提取运动向量和残差,对视频进行压缩,减少存储或传输视频所需的数据量。

简单版:解耦空间与时间表示

  • 是保留第一帧,然后计算它与后续帧的差值,记RGB像素空间中的视频表示为,其中为帧数,即:

屏幕截图2025-06-08182001.png

  • 为了像差值中注入第一帧的内容,将第一帧解码为,并将其沿着通道维度和噪声学习目标进行拼接,训练目标,共同优化解码器和噪声预测器

屏幕截图2025-06-08182350.png

高效改进

  • 仿照H.264的范式,将视频分为I-frame(含有全部图片信息的独立帧)和P-frame(通过运动向量和残差编码图像差异的预测帧),使用可逆变换获得运动向量和残差,即$f(v)=$
  • 为当前帧,为上一帧,将分成若干个不重叠的像素块,记为
  • 对每个块中最小化绝对损失寻找其在当前帧中的相应块,进而获取运动向量

屏幕截图2025-06-08191433.png

  • 则相应残差可定义为,接着利用生成P-frame。
  • 运动向量大小是原始图像的,残差大小与原图像相同。
  • 使用潜变量扩散模型的自编码器Latent Diffusion autoencoder对其进行压缩,并使用损失对其进行训练。

屏幕截图2025-06-08192306.png

整体框架对比:

屏幕截图2025-06-08192215.png