VideoDirector: Precise Video Editing via Text-to-Video Models阅读笔记

motivation

现有的T2I模型直接应用到视频编辑上时,会面临颜色闪烁和内容畸变等问题。原因主要有:

  • 当前Diffusion Pivotal Inversion难以分离视频生成过程中嵌入的空间和时间信息。
  • 传统交叉注意力机制在保留原始内容的精细特征方面存在不足。

创新点1:基于视频重建的Pivotal Inversion

屏幕截图2025-06-20153743.png

传统的空文本嵌入在所有视频帧中共享同一嵌入,缺乏对时间建模的能力,为此引入多帧空文本嵌入,其中 l 和 c 分别表示序列长度和嵌入维度。

传统的无分类器引导方法难以区分时间空间维度的信息,因此分别对时间和空间特征进行约束。

记$\Gamma_{+}、\Gamma_{-} \in R^{(HWC) \times F \times F}M_T^{f/b}M_TK$大的值的掩码。则时间约束条件可写作:

屏幕截图2025-06-20153152.png

相应的,空间的约束可表示为:

屏幕截图2025-06-20153306.png

其中,分别为DDIM inversion和原始去噪过程中的自注意力机制中的键。最终的CFG损失函数可表达为:

屏幕截图 2025-06-20153538.png

屏幕截图2025-06-20153629.png

其中代表空文本提示。

创新点2:基于注意力机制的生成内容控制

屏幕截图2025-06-20162741.png

自注意力控制

在一阶段(SA-I)初始化与输入视频对齐的时空布局。在编辑开始阶段,我们在前 个步骤内,将编辑路径中的自注意力图替换为重建路径中的自注意力图。

在二阶段(SA-II)将重建()与编辑($K_t^、V_t^\hat{K}_t=[K^_t|K_t]$$\hat{V}_t=[V^_t|V_t]M^f$,S为softmax操作,则该控制机制可表示为:

屏幕截图2025-06-20162117.png

交叉注意力控制

在前时间步前,对于在编辑提示和原始提示中共有的词,我们将编辑路径中的交叉注意力图 替换为重建路径中的交叉注意力图 ;而对于编辑提示中特有的新词,则保留原注意力图,以引入编辑指导信息。交叉注意力图可表示为:

屏幕截图2025-06-2062504.png

其中是根据编辑提示的长短进行重映射后的