Mimir: Improving Video Diffusion Models for Precise Text Understanding阅读笔记

motivation

  • 当前基于文本编码器理解提示信息的视频扩散模型在文本理解方面仍然存在局限性。
  • 人类提供的简短提示无法捕捉视频中广泛的细节。
  • LLM更注重预测接下来的文本,而非理解给定的文本,阻碍了LLM在现有T2V模型中的直接应用。

前置:输入解析

记输入的视频为,其中代表视频帧数,代表了每帧的高和宽。记编码图像的3D causal VAE为,则编码后的视频潜变量为,将其划分为长度为的patch序列

对于文本提示T进行两种处理:

  • encoder branch:使用诸如T5的文本编码器对其编码得到
  • decoder-only branch:将T输入如Phi-3.5的大语言模型,得到其所有的query token和answer token记为,同时根据给定的四个提示生成相应的指令token

架构

屏幕截图2025-06-15161625.png

创新点1:Non-Destructive Fusion

该模块的主要目的是对encoder branch和decoder-only branch解析完的本文提示进行融合,从而充分运行大语言模型推理能力并丰富文本提示细节。

在decoder-only分支的LLM之后插入一个可学习的归一化层,将两种文本标记对齐相似的尺度。归一化层后插入零卷积层,使得该分支在训练之处的输出为0。

在encoder分支的编码器输出后以残差方式插入一个零卷积层,确保该分支在初始时输出与原始编码向量保持一致。

通过加权相加的方式得到融合后的语义向量

创新点2:Semantic Stabilizer

其核心功能为确保去噪模型能够准确捕捉提示中的关键语义元素,稳定在next token prediction过程中出现的波动性文本特征。

预先定义四条指令,送入LLM后生成指令token ,再初始化四个与其形状相同的可学细token ,旨在将指令token与视觉空间对齐,将二者相加得到最终的指令语义嵌入

与Non-Destructive Fusion得到的语义向量沿着序列维度拼接,最终将其与视觉token拼接一起送入diffusion模型中。diffusion模型的训练损失可表示为:

屏幕截图2025-06-15161726.png