Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs阅读笔记

motivation

当前的T2V生成任务存在较低的帧数，不流畅的视频过渡，粗糙的视频运动，以及混乱的动作等问题。

屏幕截图2025-06-13103758.png

使用ChatGPT利用上下文学习使其根据文本提示输出任务规划，形式为 “(agent, event-predicate, target, (start-time, end-time))”，以原子时间为单位计算事件所需要的时间。

根据动作规划为每一帧生成一个场景图。场景图包含对象、属性和关系三种类型的节点，其中一些场景对象通过特定的关系相互连接，构成了空间语义三元组 “subject-predicate-object”。

该阶段分两轮进行。记阶段2生成的动态场景图为，第一轮在丰富第m个场景图时，使用滑动上下文窗口关注前一帧已丰富的场景图，当前帧和下一帧的原始场景图，通过上下文学习使得Chat-GPT生成更多的三元组。第二轮从全局角度，润色当前场景图，最终得到。

本文使用recurrent graph Transformer (RGTrm)进行场景信息融合。

记RGTrm有L层，每个场景图要经历M次递归，场景图在第层的表示为。

记k表示注意力头的编号，每个头的QKV可使用、、，分别计算。

连接结点的边的嵌入为。

则每条边对应的权重可计算为：

屏幕截图2025-06-13110114.png

记为拼接操作，编号为的注意力头的输出可表示为,则可表示为：

屏幕截图2025-06-13110315.png

最终得到动态场景图表示，将其通过交叉注意力与粗粒度的时空特征还有使用CLIP编码的文本提示融合：

屏幕截图2025-06-13110709.png

屏幕截图2025-06-13110733.png

首个尝试利用大型语言模型来进行动作规划和场景想象。

整体架构：

屏幕截图2025-06-13105354.png