Mimir: Improving Video Diffusion Models for Precise Text Understanding阅读笔记

motivation

记输入的视频为，其中代表视频帧数， $、$ 代表了每帧的高和宽。记编码图像的3D causal VAE为，则编码后的视频潜变量为，将其划分为长度为的patch序列。

对于文本提示T进行两种处理：

encoder branch：使用诸如T5的文本编码器对其编码得到。
decoder-only branch：将T输入如Phi-3.5的大语言模型，得到其所有的query token和answer token记为，同时根据给定的四个提示生成相应的指令token 。

屏幕截图2025-06-15161625.png

该模块的主要目的是对encoder branch和decoder-only branch解析完的本文提示进行融合，从而充分运行大语言模型推理能力并丰富文本提示细节。

在decoder-only分支的LLM之后插入一个可学习的归一化层，将两种文本标记对齐相似的尺度。归一化层后插入零卷积层，使得该分支在训练之处的输出为0。

在encoder分支的编码器输出后以残差方式插入一个零卷积层，确保该分支在初始时输出与原始编码向量保持一致。

通过加权相加的方式得到融合后的语义向量

其核心功能为确保去噪模型能够准确捕捉提示中的关键语义元素，稳定在next token prediction过程中出现的波动性文本特征。

预先定义四条指令，送入LLM后生成指令token ，再初始化四个与其形状相同的可学细token ，旨在将指令token与视觉空间对齐，将二者相加得到最终的指令语义嵌入。

将与Non-Destructive Fusion得到的语义向量沿着序列维度拼接，最终将其与视觉token拼接一起送入diffusion模型中。diffusion模型的训练损失可表示为：

屏幕截图2025-06-15161726.png