The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation阅读笔记

motivation

  • 现有的研究表明,在T2V任务中,与用户提供的简短描述相比,使用LLM生成的长而详细的提示通常能产生更高质量的结果。
  • 在 T2V 任务中,生成结果的质量受到动词-宾语短语的精准选择以及输入提示的结构的重要影响。

创新点1:词汇增强模块

记用户提示为,该模块的目的是通过多个直接且相关的修饰词对其进行丰富优化。

首先使用训练数据集构建一个关系图。记大语言模型为,对于每条文字提示,使用提取其场景及修饰词(物体,动作,氛围描述)。每个场景作为核心节点,其相关的修饰词为与其直接相连的次级节点。对于每个提取的场景,我们首先检查它是否已存在于关系图中。如果存在,将提取的相关修饰词将连接到已有的节点。如果不存在,则该提取的场景将成为新的核心节点,并连接相关修饰词。

屏幕截图2025-06-16111630.png

接着从关系图中提取与用户提示相关的修饰词,通过余弦相似度衡量相关度。首先从关系图中提权个最相关的场景,提取出这些场景中的所有修饰词,再从所有修饰词中提取个最相关的修饰词

将修饰词一步一个的全部融入用户提示中,记未融合的用户提示为。用表示通过prompt大语言模型完成提示和修饰词的融合,记,提示模板:

屏幕截图2025-06-16112448.png

其中提示对中的每项包含输入的提示,一个修饰词和相应的融合后的结果

创新点2:语句重组模块

该模块旨在对词汇增强模块生成的增强提示进行优化,使其更加符合训练数据中的提示格式。

记该模块的训练数据为,其中包含一个词汇增强后的提示和重组后的提示,二者在语义上相似但在格式和长度上不同。

根据如下的指令模板,对大语言模型进行指令微调,使得其能够拥有重写提示使得其符合训练数据中的提示格式的能力:

屏幕截图2025-06-16113244.png

创新点3:指令选择模块

该模块用于从直接通过指令从LLM生成的增强提示和语句重组模块的输出中选择更优的一个。

屏幕截图2025-06-16113608.png

记该模块的训练数据为,其中包含原始提示,语句重组模块的输出,从LLM生成的增强提示,还有判别结果通过提示生成的视频质量进行判别。

根据如下的指令模板,对大语言模型进行指令微调,使得其能够拥有最优指令判别的能力:

屏幕截图2025-06-16113910.png

其它

场景转换成图再扩充有点联想到Dysen-VDM