Lumiere

发表于2025-06-12|更新于2025-06-13

|浏览量:

Lumiere: A Space-Time Diffusion Model for Video Generation阅读笔记

motivation

现有的时间超分辨率（TSR）模型先生成远距离关键帧，再插帧成视频，造成高频运动的混叠现象。
级联训练方案通常会受到domain gap的影响，其中TSR模型在训练时使用的是真实的下采样视频帧，但在推理时却用于生成插值的帧，这会导致误差累积。

创新点1：时空U-Net（STUNet）

屏幕截图2025-06-12015123.png

在原始U-Net中加入时间处理模块：

在除了最粗粒度（最中间）外的所有层中加入分解的时空卷积。其将原始的3D卷积分解成一个空间的2D卷积和时间的1D卷积，在降低计算成本，提高模型的表达能力。
在最粗粒度的层中加入时间注意力层，由于时间注意力的计算需求随帧数呈二次增长，在低维特征图上操作使我们能够在堆叠多个时间注意力块的同时保持较低的计算开销。

常见的时间维度扩充方法确保在初始化时，T2V模型等效于预训练的 T2I 模型，然而，本文由于时间下采样和上采样模块的存在，这一特性无法完全满足。

我们通过实验发现，如果在初始化时让这些时间模块执行最近邻的下采样和上采样，即下采样时只使用原始视频中的帧，上采样时复制已有帧，可以得到较好的初始化起点。

创新点2：在空间超分辨率任务中应用Multidiffusion

屏幕截图2025-06-12102637.png

为了避免时间边界伪影，在时间维度上的边界上应用Multidiffusion。

记原始用于生成视频的噪声为，将其分成若干个有重叠的视频片段，其中，对每个片段使用空间超分辨（SSR）得到。

通过最小化SSR后的视频片段与生成视频间的差距对相关模块进行优化：

屏幕截图2025-06-12102331.png

其它

在进行Stylized Generation的时候，直接用针对特定风格定制的 T2I 模型权重替换原始 T2I 权重虽然可以生成目标风格的视频，但是会出现失真或静态帧。因此，我们使用线性插值融合微调后的 T2I 权重和原始 T2I 权重。即，。

文章作者: Wotoosh

文章链接: https://wotoosh.github.io/2025/06/12/Lumiere/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源由本自性清净故，令诸爱染悉无垢！

video generation with visual continuity

相关推荐

Decouple Content and Motion for Conditional Image-to-Video...

Text2Video-Zero

Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators阅读笔记motivation提出了“零样本文生视频”任务，在不经过进一步微调或者优化的前提下，只利用预训练的文生图模型生成视频。整体架构：创新点1：在潜变量中融入运动信息如行1，随机初始化第一帧的潜变量。如行2，对第一帧使用Stable...

LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation阅读笔记motivation如何更好的平衡微调T2I模型以达到T2V中的生成自由度和时间连贯度：由于训练数据过小，易造成过拟合，伤害生成自由度。 T2I扩散模型的主要针对空间维度的操作，从视频中提取活动信息的能力可能不足。整体架构：创新点1：首帧约束的生成过程将视频编码为潜变量序列。在训练时保留第一帧潜变量，并对所有后续帧加噪，则训练的损失函数可改写成： ...

ART·V: Auto-Regressive Text-to-Video Generation with Diffusion Models阅读笔记motivation 认为递归式的基于前一帧生成下一帧只需要模型学习相邻帧间的运动即可，比长距离运动学起来更简单。对原始T2I模型改动较小，能够保留其高保真的生成能力。让模型更多的从参考图像中提取信息，而不是完全依赖于去噪过程。模块1：结合掩码的扩散模型（MDM）将待生成帧的前两帧作为参考帧在通道维度上拼接后，以T2I-Adapter的方式注入到Stable Diffusion 2.1中辅助当前帧生成。记参考帧为，动态噪声预测U-Net为，动态掩码预测的U-Net为...

VideoDPO: Omni-Preference Alignment for Video Diffusion Generation阅读笔记motivation 针对 T2V 数据质量的评估，可以从视频质量和语义对齐两个维度展开。由于视觉质量与语义对齐之间的相关性较低，同时视觉质量中的各个细分指标之间也缺乏较强的关联性，因此需要一种能够同时囊括这两个方向的综合评分标准。部分正负样本间的差异较小，模型在对比学习时应更多关注那些差异显著的样本对。总体架构创新点1：OmniScore为了同时评估视频质量和语义对齐，本文提出了Omniquant，从帧内质量、帧间质量以及语义对齐度三个方向进行评估。对于不同的评估方向使用不同的指标和模型进行评估，评估后将其每个维度缩放到，再加权计算最终的OmniScore。对于运动平滑度，使用Amt（一个视频插帧模型）的运动先验判断；对于物体连贯度，计算跨帧的 DINO 特征相似度；对于时间闪烁程度，使用RAFT得到静态帧后计算帧间的绝对值差的平均；对于动态程度，也使用RAFT评估；对于图像质量，使用在 SPAQ 数据集上训练的...