VideoDirector: Precise Video Editing via Text-to-Video Models阅读笔记

motivation

现有的T2I模型直接应用到视频编辑上时，会面临颜色闪烁和内容畸变等问题。原因主要有：

屏幕截图2025-06-20153743.png

传统的空文本嵌入在所有视频帧中共享同一嵌入，缺乏对时间建模的能力，为此引入多帧空文本嵌入，其中 l 和 c 分别表示序列长度和嵌入维度。

传统的无分类器引导方法难以区分时间空间维度的信息，因此分别对时间和空间特征进行约束。

记$\Gamma_{+}、\Gamma_{-} \in R^{(HWC) \times F \times F} $分别为和原始去噪过程中的，$ M_T^{f/b} $分别代表由生成的前景和背景的掩码，$ M_T $是中最后一维前$ K$大的值的掩码。则时间约束条件可写作：

屏幕截图2025-06-20153152.png

相应的，空间的约束可表示为：

屏幕截图2025-06-20153306.png

其中， $、$ 分别为DDIM inversion和原始去噪过程中的自注意力机制中的键。最终的CFG损失函数可表达为：

屏幕截图 2025-06-20153538.png

屏幕截图2025-06-20153629.png

其中代表空文本提示。

屏幕截图2025-06-20162741.png

在一阶段（SA-I）初始化与输入视频对齐的时空布局。在编辑开始阶段，我们在前个步骤内，将编辑路径中的自注意力图替换为重建路径中的自注意力图。

在二阶段（SA-II）将重建（ $、$ ）与编辑（$K_t^、V_t^ $）得到的拼接起来得到$ \hat{K}_t=[K^_t|K_t]$$\hat{V}_t=[V^_t|V_t] $，记得到的前景掩码为$ M^f$，S为softmax操作，则该控制机制可表示为：

屏幕截图2025-06-20162117.png

在前时间步前，对于在编辑提示和原始提示中共有的词，我们将编辑路径中的交叉注意力图替换为重建路径中的交叉注意力图；而对于编辑提示中特有的新词，则保留原注意力图，以引入编辑指导信息。交叉注意力图可表示为：

屏幕截图2025-06-2062504.png

其中是根据编辑提示的长短进行重映射后的。