MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation阅读笔记

motivation

  • 用户对于生成图像的内容的控制以及对新任务的适应一直是T2I领域的难题。

  • 本文旨在利用预训练的T2I模型,在不微调的情况下用一个统一的框架应对多种图像生成任务。

MultiDiffusion方法

屏幕截图2025-06-12151419.png

记预训练模型为,其被训练在条件下生成。扩散过程可表示为:

屏幕截图2025-06-12141522.png

新任务要在条件空间下,生成分辨率为的图像。扩散过程可表示为:

屏幕截图2025-06-12141555.png

记从目标图像空间到原图像空间的映射为,条件映射函数

本方法和底层目标为希望本方法的每一步去噪与原始模型的去噪尽可能相近,当下述FTD损失为0时,在每个时间步中,局部区域的结果都“跟随”了参考模型的预测路径,因此该问题可视作优化与尽可能相似:

屏幕截图2025-06-12142117.png

屏幕截图2025-06-12142205.png

直接对原始图像进行裁剪时,可得到闭式最优解:

屏幕截图2025-06-12142353.png

伪代码:

屏幕截图2025-06-12151259.png