Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model阅读笔记

motivation

旨在提出一种同时处理和生成文本和图像信息的方法,探讨如何组合离散序列建模(next token prediction)和diffusion这两种技术,本方法对于不同模态的输入采取不一样的生成方法和训练目标。

具体实现

每个文本输入都被tokenizer转化一个整数表示,图像输入则通过VAE编码为latent patch,每个patch用一个连续向量表示,按照从左到右、从上到下的顺序排列,形成每张图像的patch向量序列,并在图像前后加入BOI和EOI标记。

屏幕截图2025-06-21152741.png

对不同模态的输入,本方法使用了独立的轻量级模块将其转换到同一向量空间中。对于文字输入离散向量使用嵌入矩阵进行转化,对于图像输入的连续向量则使用线性层或者U-Net的上下采样模块进行转换(实验证明U-Net效果更好)。

屏幕截图2025-06-21152523.png

在Transformer的注意力模块中,在对序列中每个元素应用因果注意力的基础上,对所有图像元素之间应用双向注意力,使得每个图像patch可以关注同一图像中的所有其他patch,但都只能关注序列中先前出现的文本。

屏幕截图2025-06-21152948.png

我们对文本和图像生成设定不同的损失函数,结合语言建模损失和噪声预测损失,最终的损失函数可记作:

屏幕截图2025-06-21153429.png

屏幕截图2025-06-21153359.png

屏幕截图2025-06-21153311.png

与训练目标相对应,推理时的解码步骤可分为LM和diffusion两种模式。

遇到文本输入时使用LM模式,逐步使用自回归方式预测下一个token。当遇到BOI输入时转化为diffusion模式,将以 n 个图像patch形式的纯噪声 附加到输入序列中,然后在 个步骤中进行去噪。在每个步骤中,我们利用噪声预测生成,并用它覆盖序列中的 。当去噪过程技术后,就在输入序列中的图像后添加EOI标识,再次转换为LM模式。