JanusFlow
JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation阅读笔记motivation试图集成自回归模型和Rectified Flow模型,从而使用一个模型完成多模态理解与生成。 由于Rectified Flow 可以在LLM框架内直接训练,无需进行复杂的架构修改。 解耦理解与生成的编码器现有方法多对理解与生成的输入使用同一个编码器,本文采用了解耦的编码器设计。具体而言,本文使用预训练的 SigLIP-Large-Patch/16 模型作为多模态理解编码器,从中提取用于多模态理解的语义连续特征;而对于生成任务,使用初始化的ConvNeXt模块作为生成的编码器和解码器,并在其之间加入了一条长跳跃连接。 多模态理解使用tokenizer解析输入文本,并转换为维的向量。图像使用编码为维度为的feature...
MonoFormer
MonoFormer: One Transformer for Both Diffusion and Autoregression阅读笔记motivation旨在构建并训练一个同时支持自回归和扩散方法的Transformer模型,其输入是经过embedding层投影的文本嵌入和带有噪声的图像潜变量,输出是预测的下一个token的文本嵌入和用于预测图像噪声的嵌入。 具体实现对于文本使用自回归的模式生成,检测到生成特殊token ‘‘后转而使用diffusion模式生成图像,同时对所有高斯初始化的图像潜变量进行噪声预测操作,再对图像潜变量进行去噪。(与Transfusion类似) 去噪过程在潜空间进行,使用VAE encoder将图像patch映射到潜孔间,将带噪的潜变量与sine-cosine的位置嵌入相加。 与DiT相似,采用一个 256 维的频率嵌入对输入的时间步进行编码,随后通过两层带 SiLU...
Transfusion
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model阅读笔记motivation旨在提出一种同时处理和生成文本和图像信息的方法,探讨如何组合离散序列建模(next token prediction)和diffusion这两种技术,本方法对于不同模态的输入采取不一样的生成方法和训练目标。 具体实现每个文本输入都被tokenizer转化一个整数表示,图像输入则通过VAE编码为latent...
LMFusion
LMFusion: Adapting Pretrained Language Models for Multimodal Generation阅读笔记motivation为了在赋予预训练LLM视觉理解和生成能力的同时,更好的保存其处理文本的性能,本方法整合了原本针对语言处理预训练的 Llama 模块,同时引入了额外专用于视觉理解和生成任务的 Transformer 模块,对不同模态使用不同的QKV投影和FFN层,并冻结处理语言模态相关模块的权重。 具体实现记文本输入为经过,投影层转化为向量表示;带有噪声的图像输入为,经过UNet下采样层转换成潜变量: 分别对不同模态的向量表示使用不同的QKV投影层并正则化: 分别使用不同的O层投影和Query对拼接后的Key、Value使用注意力机制以交互不同模态间的信息,其中M...
VideoDirector
VideoDirector: Precise Video Editing via Text-to-Video Models阅读笔记motivation现有的T2I模型直接应用到视频编辑上时,会面临颜色闪烁和内容畸变等问题。原因主要有: 当前Diffusion Pivotal Inversion难以分离视频生成过程中嵌入的空间和时间信息。 传统交叉注意力机制在保留原始内容的精细特征方面存在不足。 创新点1:基于视频重建的Pivotal Inversion 传统的空文本嵌入在所有视频帧中共享同一嵌入,缺乏对时间建模的能力,为此引入多帧空文本嵌入,其中 l 和 c 分别表示序列长度和嵌入维度。 传统的无分类器引导方法难以区分时间空间维度的信息,因此分别对时间和空间特征进行约束。 记$\Gamma_{+}、\Gamma_{-} \in R^{(HWC) \times F \times F}分别为和原始去噪过程中的,M_T^{f/b}分别代表由生成的前景和背景的掩码,M_T是中最后一维前K$大的值的掩码。则时间约束条件可写作: 相应的,空间的约束可表示为: 其中,、分别为DDIM...
RE-VDM
Repurposing Pre-trained Video Diffusion Models for Event-based Video Interpolation阅读笔记motivation在基于事件的视频插帧任务下第一次使用调整后的预训练video diffusion(VD) 该领域方法泛化效果不佳的两大原因:训练数据的数量和质量有限,模型高度专门化。 模块1:使用事件相机作为控制条件的适应性调整由于EVFI数据集较小,为防止微调造成预训练VD的灾难性遗忘。本方法在训练过程中冻结VD的原始权重,同时引入基于事件的控制机制,仅训练从原始去噪网络复制的一部分块,作为额外的残差连接到原始去噪网络中的对应块输出。 优化目标是最小化预测噪声与视频潜变量中添加的真实噪声之间的均方误差损失,其中去噪时间 t...
RAPO
The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation阅读笔记motivation 现有的研究表明,在T2V任务中,与用户提供的简短描述相比,使用LLM生成的长而详细的提示通常能产生更高质量的结果。 在 T2V...
Mimir
Mimir: Improving Video Diffusion Models for Precise Text Understanding阅读笔记motivation 当前基于文本编码器理解提示信息的视频扩散模型在文本理解方面仍然存在局限性。 人类提供的简短提示无法捕捉视频中广泛的细节。 LLM更注重预测接下来的文本,而非理解给定的文本,阻碍了LLM在现有T2V模型中的直接应用。 前置:输入解析记输入的视频为,其中代表视频帧数,、代表了每帧的高和宽。记编码图像的3D causal VAE为,则编码后的视频潜变量为,将其划分为长度为的patch序列。 对于文本提示T进行两种处理: encoder branch:使用诸如T5的文本编码器对其编码得到。 decoder-only branch:将T输入如Phi-3.5的大语言模型,得到其所有的query token和answer token记为,同时根据给定的四个提示生成相应的指令token 。 架构 创新点1:Non-Destructive Fusion该模块的主要目的是对encoder...
vp4video-editing
Visual Prompting for One-shot Controllable Video Editing without Inversion阅读笔记motivation 每一步DDIM Inversion都会带来误差,因此想提出一种不需要DDIM Inversion的One-shot controllable video editing(OCVE)方法。 认为OCVE和visual prompt有共通之处,都旨在在图像之间传播特定的修改,因此可将其视作一种特殊的visual prompt任务。 架构图 创新点1:从visual prompt的角度重构OCVE任务在OCVE任务中扩散模型需要基于提供的一对示例帧(编辑前后的第一帧),推断如何编辑视频的后续帧。为此,本文提出利用inpainting diffusion来完成该任务,因为此类模型擅长填补图像中缺失的区域,同时保持与周围部分的上下文一致性。 inpainting...
VideoDPO
VideoDPO: Omni-Preference Alignment for Video Diffusion Generation阅读笔记motivation 针对 T2V 数据质量的评估,可以从视频质量和语义对齐两个维度展开。由于视觉质量与语义对齐之间的相关性较低,同时视觉质量中的各个细分指标之间也缺乏较强的关联性,因此需要一种能够同时囊括这两个方向的综合评分标准。 部分正负样本间的差异较小,模型在对比学习时应更多关注那些差异显著的样本对。 总体架构 创新点1:OmniScore为了同时评估视频质量和语义对齐,本文提出了Omniquant,从帧内质量、帧间质量以及语义对齐度三个方向进行评估。 对于不同的评估方向使用不同的指标和模型进行评估,评估后将其每个维度缩放到,再加权计算最终的OmniScore。 对于运动平滑度,使用Amt(一个视频插帧模型)的运动先验判断;对于物体连贯度,计算跨帧的 DINO 特征相似度;对于时间闪烁程度,使用RAFT得到静态帧后计算帧间的绝对值差的平均;对于动态程度,也使用RAFT评估; 对于图像质量,使用在 SPAQ 数据集上训练的...