Transfusion

motivation

旨在提出一种同时处理和生成文本和图像信息的方法，探讨如何组合离散序列建模（next token prediction）和diffusion这两种技术，本方法对于不同模态的输入采取不一样的生成方法和训练目标。

具体实现

每个文本输入都被tokenizer转化一个整数表示，图像输入则通过VAE编码为latent patch，每个patch用一个连续向量表示，按照从左到右、从上到下的顺序排列，形成每张图像的patch向量序列，并在图像前后加入BOI和EOI标记。

屏幕截图2025-06-21152741.png

对不同模态的输入，本方法使用了独立的轻量级模块将其转换到同一向量空间中。对于文字输入离散向量使用嵌入矩阵进行转化，对于图像输入的连续向量则使用线性层或者U-Net的上下采样模块进行转换（实验证明U-Net效果更好）。

屏幕截图2025-06-21152523.png

在Transformer的注意力模块中，在对序列中每个元素应用因果注意力的基础上，对所有图像元素之间应用双向注意力，使得每个图像patch可以关注同一图像中的所有其他patch，但都只能关注序列中先前出现的文本。

屏幕截图2025-06-21152948.png

我们对文本和图像生成设定不同的损失函数，结合语言建模损失和噪声预测损失，最终的损失函数可记作：

屏幕截图2025-06-21153429.png

屏幕截图2025-06-21153359.png

屏幕截图2025-06-21153311.png

与训练目标相对应，推理时的解码步骤可分为LM和diffusion两种模式。

遇到文本输入时使用LM模式，逐步使用自回归方式预测下一个token。当遇到BOI输入时转化为diffusion模式，将以 n 个图像patch形式的纯噪声附加到输入序列中，然后在个步骤中进行去噪。在每个步骤中，我们利用噪声预测生成，并用它覆盖序列中的。当去噪过程技术后，就在输入序列中的图像后添加EOI标识，再次转换为LM模式。

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model阅读笔记

motivation

具体实现