RAPO
The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation阅读笔记
motivation
- 现有的研究表明,在T2V任务中,与用户提供的简短描述相比,使用LLM生成的长而详细的提示通常能产生更高质量的结果。
- 在 T2V 任务中,生成结果的质量受到动词-宾语短语的精准选择以及输入提示的结构的重要影响。
创新点1:词汇增强模块
记用户提示为
首先使用训练数据集构建一个关系图
接着从关系图
将修饰词
其中提示对
创新点2:语句重组模块
该模块旨在对词汇增强模块生成的增强提示进行优化,使其更加符合训练数据中的提示格式。
记该模块的训练数据为
根据如下的指令模板,对大语言模型
创新点3:指令选择模块
该模块用于从直接通过指令从LLM生成的增强提示
记该模块的训练数据为
根据如下的指令模板,对大语言模型
其它
场景转换成图再扩充有点联想到Dysen-VDM
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 由本自性清净故,令诸爱染悉无垢!