AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning阅读笔记

motivation

  • 解决个性化 T2I 动画生成的问题,同时保持其视觉质量和预训练模型中相关领域的知识。

屏幕截图2025-06-11105102.png

创新点1:域适应器

由于视频数据集的质量远低于图像数据集,为了避免因数据质量较低而影响训练效果,本文在基础 T2I 模型的自注意力层和交叉注意力层中引入 LoRA 领域适配器,以提升模型的适应性和生成质量。

加入域适应器后,注意力层的投影变为:

屏幕截图2025-06-11101954.png

在推理时,将设置为0可以禁用域适应器。推理过程中,随着适配器的缩放因子减小,整体视觉质量有所提升,同时从视频数据集中学习到的视觉内容(如水印)也有所减少。

创新点2:即插即拔的运动模块

T2I到T2V

视频向量维度为,在进入原始的T2I模型的层前,将其变换为,使得相关曾能独立处理每帧。

在将视频向量输入本文提出的运动模块前,将其变换为,使得空间维度被忽略。

运动模块构建

将变换后的视频向量沿着时间维度分割得到,按照帧加入sin函数的时间位置编码后,送入注意力模块中:

屏幕截图2025-06-11104225.png

创新点3:MotionLoRA

为了使得运动模块能够处理新的运动,在运动模块的自注意力层中加入LoRA,并在新运动参考视频上训练LoRA。在20-50个参考视频上训练2000轮即可。