MonoFormer: One Transformer for Both Diffusion and Autoregression阅读笔记

motivation

旨在构建并训练一个同时支持自回归和扩散方法T的ransformer模型,其输入是经过embedding层投影的文本嵌入和带有噪声的图像潜变量,输出是预测的下一个token的文本嵌入和用于预测图像噪声的嵌入。

屏幕截图2025-06-22010845.png

具体实现

对于文本使用自回归的模式生成,检测到生成特殊token ‘‘后转而使用diffusion模式生成图像,同时对所有高斯初始化的图像潜变量进行噪声预测操作,再对图像潜变量进行去噪。(与Transfusion类似)

去噪过程在潜空间进行,使用VAE encoder将图像patch映射到潜孔间,将带噪的潜变量与sine-cosine的位置嵌入相加。

与DiT相似,采用一个 256 维的频率嵌入对输入的时间步进行编码,随后通过两层带 SiLU 激活函数的MLP。使用AdaLN将时间嵌入和带噪潜变量融合。

与DiT不同的是,在处理本文()时使用了因果掩码而非双向掩码,但在处理图像潜变量时()和DiT都使用了双向掩码。

带掩码的注意力机制可表示为:

屏幕截图2025-06-22013406.png

是实际的文本嵌入,是实际添加的噪声,扩散头的实现也遵循 DiT 的设计,由Layer Norm、一个线性层以及 SiLU 激活函数构成。模型的训练目标为:

屏幕截图2025-06-22013228.png

其中:

屏幕截图2025-06-22013130.png

屏幕截图2025-06-22013204.png