LMFusion

发表于2025-06-21|更新于2025-06-21

|浏览量:

LMFusion: Adapting Pretrained Language Models for Multimodal Generation阅读笔记

motivation

为了在赋予预训练LLM视觉理解和生成能力的同时，更好的保存其处理文本的性能，本方法整合了原本针对语言处理预训练的 Llama 模块，同时引入了额外专用于视觉理解和生成任务的 Transformer 模块，对不同模态使用不同的QKV投影和FFN层，并冻结处理语言模态相关模块的权重。

屏幕截图2025-06-21105549.png

具体实现

记文本输入为经过，投影层转化为向量表示；带有噪声的图像输入为，经过UNet下采样层转换成潜变量：

屏幕截图2025-06-21105911.png

分别对不同模态的向量表示使用不同的QKV投影层并正则化：

屏幕截图2025-06-21110010.png

分别使用不同的O层投影和Query对拼接后的Key、Value使用注意力机制以交互不同模态间的信息，其中M 表示Transfusion的混合注意力掩码，其对文本输入应用因果掩码，对图像标记应用双向掩码：

屏幕截图2025-06-21110200.png

接着对不同模态的向量使用不同的FFN层：

屏幕截图2025-06-21110343.png

在经过N层注意力机制处理和FFN后，将语言输出映射到最终的logits，图像输出通过UNet上采样还原：

屏幕截图2025-06-21110412.png

模型训练目标与Transfusion一致，但在实际训练中将文本（）和图像（）的学习率解耦，将设置为0即可冻结住语言处理模块的权重，即：

屏幕截图2025-06-21110658.png

屏幕截图2025-06-21110729.png

屏幕截图2025-06-21110548.png

文章作者: Wotoosh

文章链接: https://wotoosh.github.io/2025/06/21/LMFusion/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源由本自性清净故，令诸爱染悉无垢！

Unified Multimodal Understanding and Generation

相关推荐

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model阅读笔记motivation旨在提出一种同时处理和生成文本和图像信息的方法，探讨如何组合离散序列建模（next token prediction）和diffusion这两种技术，本方法对于不同模态的输入采取不一样的生成方法和训练目标。具体实现每个文本输入都被tokenizer转化一个整数表示，图像输入则通过VAE编码为latent...

MonoFormer: One Transformer for Both Diffusion and Autoregression阅读笔记motivation旨在构建并训练一个同时支持自回归和扩散方法的Transformer模型，其输入是经过embedding层投影的文本嵌入和带有噪声的图像潜变量，输出是预测的下一个token的文本嵌入和用于预测图像噪声的嵌入。具体实现对于文本使用自回归的模式生成，检测到生成特殊token ‘‘后转而使用diffusion模式生成图像，同时对所有高斯初始化的图像潜变量进行噪声预测操作，再对图像潜变量进行去噪。(与Transfusion类似) 去噪过程在潜空间进行，使用VAE encoder将图像patch映射到潜孔间，将带噪的潜变量与sine-cosine的位置嵌入相加。与DiT相似，采用一个 256 维的频率嵌入对输入的时间步进行编码，随后通过两层带 SiLU...

JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation阅读笔记motivation试图集成自回归模型和Rectified Flow模型，从而使用一个模型完成多模态理解与生成。由于Rectified Flow 可以在LLM框架内直接训练，无需进行复杂的架构修改。解耦理解与生成的编码器现有方法多对理解与生成的输入使用同一个编码器，本文采用了解耦的编码器设计。具体而言，本文使用预训练的 SigLIP-Large-Patch/16 模型作为多模态理解编码器，从中提取用于多模态理解的语义连续特征；而对于生成任务，使用初始化的ConvNeXt模块作为生成的编码器和解码器，并在其之间加入了一条长跳跃连接。多模态理解使用tokenizer解析输入文本，并转换为维的向量。图像使用编码为维度为的feature...