Visual Prompting for One-shot Controllable Video Editing without Inversion阅读笔记

motivation

  • 每一步DDIM Inversion都会带来误差,因此想提出一种不需要DDIM Inversion的One-shot controllable video editing(OCVE)方法。
  • 认为OCVE和visual prompt有共通之处,都旨在在图像之间传播特定的修改,因此可将其视作一种特殊的visual prompt任务。

屏幕截图2025-06-15102023.png

架构图

屏幕截图2025-06-15124508.png

创新点1:从visual prompt的角度重构OCVE任务

在OCVE任务中扩散模型需要基于提供的一对示例帧(编辑前后的第一帧),推断如何编辑视频的后续帧。为此,本文提出利用inpainting diffusion来完成该任务,因为此类模型擅长填补图像中缺失的区域,同时保持与周围部分的上下文一致性。

inpainting diffusion的运作基于基于三个输入参数:待修复的输入信息、指示需要修复区域的掩码信息以及描述期望修复结果的引导文本提示

  • 为了完成OCVE任务,本文将输入分为四个区域。左上角为编辑前的第一帧,右上角为编辑后的第一帧,左下角为待编辑的目标帧,右下角为尚未生成的编辑后的目标帧。

  • 掩码中的黑色为保持不变的部分,掩码中的白色表示需要inpaint的部分,即待编辑区域。

屏幕截图2025-06-15103902.png

  • 鉴于 CLIP 空间中的向量通常能够有效捕捉编辑方 [48],我们将用户的编辑表示为第一帧图像编辑前后在 CLIP 嵌入空间中的编码特征之差,记为原始的第一帧,为编辑后的第一帧,为CLIP的图像编码器,则文本提示可表示为:

屏幕截图2025-06-15104254.png

创新点2:内容一致性采样(CCS)

由于我们的方法未采用 DDIM 反演,为了确保生成的编辑帧与源帧之间的内容一致性,本文从一致性模型的采样中获取了灵感,提出了一种基于inpainting diffusion模型的多步一致性渐进式去噪采样。

原始的inpainting diffusion去噪过程为:

屏幕截图2025-06-15105427.png

为了去除去噪过程对于马尔可夫链的依赖,记,则去噪过程变为:

屏幕截图2025-06-15105556.png

为了确保多步一致性,无论在什么时间步下,预测出的都应相同,因此使用一致性噪声替代原本的,则预测出的变为:

屏幕截图2025-06-15105959.png

,此时的就相当于一个可以执行多步一致性采样的一致性模型了。

将上式带入原始的去噪过程,可得:

屏幕截图2025-06-15110331.png

本方法希望源帧开始,逐步沿着用户设定的编辑方向调整内容,最终生成期望的编辑帧,同时保持与源帧的内容一致性。因此认为设定 CCS 在第一个时间步生成源帧,即可求得

用户编辑在潜空间带来的噪声变化可视作:

屏幕截图2025-06-15123106.png

一致性模型的预测过程变为:

屏幕截图2025-06-15123225.png

创新点3:时间一致性采样(TCS)

为了保持视频的时间一致性,本文视频视为一个分布,其中的每帧的潜变量被视为从该分布中抽取的样本,记作,记CCS采样出的编辑后视频潜变量为,通过Stein Variational Gradient Descent使得采样出的分布更加接近原视频的分布。

本方法采用一个步的递归过程,从步开始逐渐递归:

屏幕截图2025-06-15124156.png

其中是步长,是标准径向基函数核,使用所有 N 个样本的平均梯度来更新每个样本,以提高优化的稳定性。