Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs阅读笔记

motivation

当前的T2V生成任务存在较低的帧数,不流畅的视频过渡,粗糙的视频运动,以及混乱的动作等问题。

  • 语言提及的一系列动作可能并不严格符合物理上的实际发生顺序,因此,正确组织事件的语义时序至关重要。
  • 提示文本不可能涵盖所有动作场景,需对其合理丰富。
  • 上述过程应使用结构化的语义表示。
  • 应实现细粒度的时空特征建模,从而确保视频生成在时间上的连贯性。

创新点1:动态场景管理器

屏幕截图2025-06-13103758.png

阶段1:动作规划

使用ChatGPT利用上下文学习使其根据文本提示输出任务规划,形式为 “(agent, event-predicate, target, (start-time, end-time))”,以原子时间为单位计算事件所需要的时间。

阶段2:动态场景图生成

根据动作规划为每一帧生成一个场景图。 场景图包含对象、属性和关系三种类型的节点,其中一些场景对象通过特定的关系相互连接,构成了空间语义三元组 “subject-predicate-object”。

阶段3:动作场景丰富

该阶段分两轮进行。记阶段2生成的动态场景图为,第一轮在丰富第m个场景图时,使用滑动上下文窗口关注前一帧已丰富的场景图,当前帧和下一帧的原始场景图,通过上下文学习使得Chat-GPT生成更多的三元组。第二轮从全局角度,润色当前场景图,最终得到

创新点2:场景信息融合

本文使用recurrent graph Transformer (RGTrm)进行场景信息融合。

记RGTrm有L层,每个场景图要经历M次递归,场景图在第层的表示为

记k表示注意力头的编号,每个头的QKV可使用,分别计算。

连接结点的边的嵌入为

则每条边对应的权重可计算为:

屏幕截图2025-06-13110114.png

为拼接操作,编号为的注意力头的输出可表示为,则可表示为:

屏幕截图2025-06-13110315.png

最终得到动态场景图表示,将其通过交叉注意力与粗粒度的时空特征还有使用CLIP编码的文本提示融合:

屏幕截图2025-06-13110709.png

屏幕截图2025-06-13110733.png

其它

首个尝试利用大型语言模型来进行动作规划和场景想象。

整体架构:

屏幕截图2025-06-13105354.png