VideoDPO: Omni-Preference Alignment for Video Diffusion Generation阅读笔记

motivation

针对 T2V 数据质量的评估，可以从视频质量和语义对齐两个维度展开。由于视觉质量与语义对齐之间的相关性较低，同时视觉质量中的各个细分指标之间也缺乏较强的关联性，因此需要一种能够同时囊括这两个方向的综合评分标准。
部分正负样本间的差异较小，模型在对比学习时应更多关注那些差异显著的样本对。

屏幕截图2025-06-14130700.png

屏幕截图2025-06-14155821.png

为了同时评估视频质量和语义对齐，本文提出了Omniquant，从帧内质量、帧间质量以及语义对齐度三个方向进行评估。

对于不同的评估方向使用不同的指标和模型进行评估，评估后将其每个维度缩放到，再加权计算最终的OmniScore。

对于运动平滑度，使用Amt（一个视频插帧模型）的运动先验判断；对于物体连贯度，计算跨帧的 DINO 特征相似度；对于时间闪烁程度，使用RAFT得到静态帧后计算帧间的绝对值差的平均；对于动态程度，也使用RAFT评估；

对于图像质量，使用在 SPAQ 数据集上训练的 MUSIQ 图像质量预测器对其进行评估；对于美学价值，使用LAION 预测器评估。

对于语义对齐程度，使用由 ViCLIP 计算的视频文本一致性评估。

记给定的文本提示为，对每个提示生成个视频，生成的视频为，其对应的OmniScore为，从中选取分数最高的样本作为正样本，分数最低的样本作为负样本，即：

屏幕截图2025-06-14141643.png

一些正向与负向样本之间的得分差异可能极小，对模型训练的用处较小，我们建议对那些区分度更明显的偏好对赋予更高的权重，从而使模型聚焦于能够提供更具意义对齐提示的样本对。

记共有个文本提示，则共有个生成的视频。根据这些视频的OmniScore构造概率直方图，定义概率函数，根据直方图区间中的频率来近似计算视频的OmniScore的概率。

对于每个正负样本对，记其概率为，则每个样本对的权重为：

屏幕截图2025-06-14143650.png

其中是近似的最大概率，是控制的加权力度，其值越大，模型越关注出现概率小的样本对。

最终的训练损失函数为：屏幕截图2025-06-14155518.png

屏幕截图2025-06-14155601.png

如果直接从训练样本中剔除得分差异小的样本对，性能反而会降低，这可能是因为移除这些样本对（包括相应的提示）降低了训练数据的多样性。