ART·V: Auto-Regressive Text-to-Video Generation with Diffusion Models阅读笔记

motivation

  • 认为递归式的基于前一帧生成下一帧只需要模型学习相邻帧间的运动即可,比长距离运动学起来更简单。
  • 对原始T2I模型改动较小,能够保留其高保真的生成能力。
  • 让模型更多的从参考图像中提取信息,而不是完全依赖于去噪过程。

模块1:结合掩码的扩散模型(MDM)

屏幕截图2025-06-14013143.png

将待生成帧的前两帧作为参考帧在通道维度上拼接后,以T2I-Adapter的方式注入到Stable Diffusion 2.1中辅助当前帧生成。

记参考帧为,动态噪声预测U-Net为,动态掩码预测的U-Net为 ,将当前时刻的噪声系数简化为,则时刻的带噪图像可表示为:

屏幕截图2025-06-14014421.png

联立收尾两行得:

屏幕截图2025-06-14014513.png

本文将近似为,使其不再需要预测,因此只使用预测即可。

利用预测出掩码m,该掩码可以指导模型在掩码为1的区域更加关注参考帧,实验结果显示随着去噪步数的增加,m中1的个数越多,模型更多地直接复制参考图像的信息,从而减少了生成图像中高频细节的不一致性:

屏幕截图2025-06-14015731.png

最终MDM的输出可表示为:

屏幕截图2025-06-14015149.png

模块2:噪声增强

由于模型的训练与测试数据间有差异,测试时使用的参考帧是模型生成的,相比于ground truth还是会含有更多噪声,因此在训练过程中随机想参考帧和锚帧中加入噪声。

随机选取噪声等级,使用该噪声等级的参考帧和锚帧替换原始的参考帧和锚帧。

还将噪声水平作为额外条件,通过将其加入到扩散模型的时间步嵌入中。

模块3:锚帧调节

为了增强长视频中的物体和场景的一致性,使用锚帧进行调节。

训练中随机从固定的时间窗口前选取一帧,测试时选取第一帧作为锚帧(第一帧没有噪声),在diffusion中使用交叉注意力利用锚帧进行调节。

屏幕截图2025-06-14112901.png

其它

在训练时以10%的概率随机丢弃视频生成的控制条件。