JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation阅读笔记

motivation

试图集成自回归模型和Rectified Flow模型，从而使用一个模型完成多模态理解与生成。

由于Rectified Flow 可以在LLM框架内直接训练，无需进行复杂的架构修改。

解耦理解与生成的编码器

现有方法多对理解与生成的输入使用同一个编码器，本文采用了解耦的编码器设计。具体而言，本文使用预训练的 SigLIP-Large-Patch/16 模型作为多模态理解编码器，从中提取用于多模态理解的语义连续特征；而对于生成任务，使用初始化的ConvNeXt模块作为生成的编码器和解码器，并在其之间加入了一条长跳跃连接。

屏幕截图2025-06-22141342.png

多模态理解

使用tokenizer解析输入文本，并转换为维的向量。图像使用编码为维度为的feature map，并使用线性层转换为维度为的向量序列。将文本与图像向量拼接后送入LLM中，在图像前后分别加入|BOI|和|EOI|的特殊字符。

图像生成

记输入的文本控制条件为，在SDXL-VAE的潜空间中进行Rectified Flow去噪。首先生成维度为，经过编码器转换为嵌入序列，与t时刻的时间嵌入拼接，使得序列长度变为，与大多数工作不同，无论是对图像输入还是文本输入，在注意力机制重均使用了因果掩码。LLM的输出最终经由解码器转换回并使用standard Euler solver进行更新，使用更新后的潜变量替换原始潜变量，不断迭代直至得到干净的潜变量再使用解码器转换为图像：