港大与京东探索院联手优化视频AI四步提升实用体验
这项由香港大学、京东探索研究院、清华大学、北京大学和浙江大学联合完成的研究,以技术报告形式发布于2026年4月,论文编号为arXiv:2604.25427,有兴趣深入了解的读者可通过该编号查询完整原文。

你是否曾尝试用AI生成视频,却对结果感到失望?画面与描述不符、人物肢体扭曲、场景光影闪烁,最终视频看起来像是粗糙的拼贴。这并非个例,而是当前AI视频生成技术普遍面临的挑战:模型虽然“能”生成内容,但距离“好用”和“可靠”仍有差距。
针对这一行业核心痛点,来自香港大学、京东探索研究院等顶尖机构的研究团队,提出了一套系统性的解决方案——“视频生成后训练框架”。你可以将其理解为,为一位已掌握基础技能的新员工,设计一套量身定制的“岗前强化培训”,目标是使其从“会操作”升级为“能产出高质量成果”。
预训练的AI,如同刚毕业的新员工
要理解这项工作的价值,需先厘清AI视频生成的两个关键阶段。第一阶段是“预训练”,模型通过“学习”海量的视频-文本配对数据,建立对世界的基本认知,这好比学生完成了系统的理论课程。第二阶段则是“后训练”,旨在针对实际应用中的具体问题(如指令理解偏差、画面抖动、生成缓慢)进行精细化调整与优化,如同毕业生进入岗位后接受专项技能培训与项目实战,以真正创造实用价值。
目前,许多视频AI模型在完成预训练后便直接部署,暴露出三大典型缺陷:对用户提示词(Prompt)的表述方式过于敏感,细微改动可能导致结果迥异;生成视频在时间维度上缺乏连贯性,物体可能出现抖动、变形或消失;此外,高昂的计算成本导致生成速度慢,严重制约了其商业化应用潜力。
为此,研究团队设计了一套循序渐进的四阶段“后训练”课程,旨在系统性地攻克上述难题,提升AI视频生成的质量与效率。
一、打地基:用优质数据让AI学会“稳定执行”
整个流程的第一步,称为“监督微调”。此阶段的核心目标并非追求惊艳的视觉效果,而是确保模型行为的“稳定性”与“可靠性”。
可以做一个类比:假设你要训练一个厨师助手机器人。它或许已熟读百万菜谱,理论知识丰富,但实际操作时,却可能错把盐当糖,或在烹饪中途突然宕机。此时的首要任务,绝非让它挑战满汉全席,而是确保它能准确识别指令、按步骤稳定执行、且不产出有害内容。
研究团队在此阶段,利用一批精心筛选的高质量视频-文本数据,针对AI最常出现的几类严重错误进行定向纠正,包括:无故拒绝执行合理指令、生成逻辑混乱或自相矛盾的内容,以及产出不符合安全规范的内容。
经过这一阶段的“行为矫正”,AI从一个“能力虽强但状态不稳”的“天才”,转变为一个“听话、稳定、具备基本判断力”的“可靠助手”。这个稳定的基线至关重要,是所有后续高级优化得以顺利进行的前提。如果跳过此步,直接进行复杂训练,模型很可能在过程中“跑偏”,出现性能退化。值得一提的是,这一步训练还带来了额外益处:它为模型提供了更广阔的“策略探索空间”,为后续的强化学习积累了更丰富的经验数据。
二、用奖惩机制精细打磨:引导AI追求“视觉卓越”
在确保行为稳定之后,下一步是引导AI追求更高的生成质量标准。这一阶段采用了“基于人类反馈的强化学习”方法,具体而言是GRPO算法。
用奖惩机制训练AI,其原理类似于训练动物。当动物完成基础指令后,若想让它掌握更复杂的动作,就需要在它做对时给予奖励,做错时不予奖励或给予轻微惩罚。不同的是,AI的“奖励”是由一系列自动化评分模型给出的数值信号。
研究中,团队构建了四个独立的评分模型,分别评估视频的不同维度:整体美学(光影、构图、电影感)、单帧图像质量(清晰度、细节)、运动流畅度(自然、无抖动跳帧),以及语义一致性(视频内容与文本描述是否精准匹配)。
然而,协调这四位“评委”是一项挑战,因为不同维度的优化目标有时会相互冲突。例如,过度追求视觉华丽可能牺牲语义准确性;而严格对齐文本又可能导致画面呆板。研究团队耗费了大量精力设计评分融合策略与动态权重分配,以确保优化方向是追求“整体最优解”,而非某个单一维度的“极端表现”。
在技术实现上,团队面临视频生成特有的挑战:生成一段视频需经过多步连续计算,但奖励信号仅在最终生成完成后才给出。这好比厨师花费数小时烹制一道菜肴,评委仅在品尝最后一口时打分。如何将这一口的评价,反向传递以指导烹饪过程中的每一步,是个技术难题。
为此,团队创新性地采用了“同步时间步分组”策略。简而言之,它将生成过程的不同时间节点分配给不同的训练批次,仅在特定节点引入可控的随机探索,其余时间则保持确定性生成。此举有效降低了单次训练的计算开销,同时确保了模型仍能通过探索发现更优的生成策略。此外,团队还引入了“时序梯度校正”机制,通过数学方法标准化不同时间步的学习信号强度,避免了训练过程因某些步骤影响过大或过小而失衡。
实际评测表明,经过此阶段训练,视频的整体人工评分平均提升了31%。其中,视觉质量与运动流畅度的改善最为显著,而语义一致性的提升相对有限。团队坦诚指出,这主要是受限于当前文本-视频对齐评分模型自身的准确性,导致该维度的奖励信号不够可靠,从而影响了优化效果的上限。
三、从源头优化:训练一个“智能提示词增强器”
前两个阶段主要解决了AI自身生成质量的问题,但另一个关键挑战依然存在:用户输入的描述往往过于简略或模糊。例如,“一只猫在玩耍”这样的指令,留给AI的想象空间过大,光影、场景、具体动作等细节均需AI自行“脑补”,结果自然难以精准可控。
第三阶段的解决方案,是训练一个独立的“提示词增强”语言模型,充当用户与视频AI之间的“专业翻译官”或“创意扩写助手”。用户给出简单描述,由它进行扩充、润色与细节补充,再将优化后的、信息量更丰富的描述传递给视频生成模型。
这个“翻译官”的训练方式,与第二阶段异曲同工——同样采用基于奖励的强化学习,只不过训练对象换成了语言模型,奖励目标也相应调整。其评分主要关注三个维度:增强后的描述是否忠实于用户原意(防止“翻译”失真);最终生成的视频视觉质量是否得到提升;以及增强后的描述格式是否规范、长度是否适宜,能否被下游视频AI高效解析。
此方案的一个显著优势在于:训练“提示词增强器”时,视频生成模型本身是“冻结”不参与训练的。这意味着训练成本大幅降低,并且同一套提示词增强模型可以灵活适配于不同的底层视频AI,通用性和可移植性很强。
实测效果显示,引入提示词增强后,视频的整体人工评分在之前31%提升的基础上,又获得了约20%的额外增益。提升主要仍来源于视觉与运动质量,而语义一致性评分基本保持稳定——这证明“翻译官”在丰富描述细节的同时,成功守住了“信达雅”中“信”的底线,没有曲解用户核心意图。
四、性能提速:让高质量视频实现“实时生成”
至此,视频生成质量已大幅提升,但最后一个现实瓶颈亟待解决:生成速度。当前主流视频AI多采用“双向注意力”机制,生成每一帧时都需要回顾整个视频序列的所有历史与未来信息。这就像写作时,每写一个字都要通读全文,效率低下。
更高效的方案是“自回归”架构,即像人类说话一样,只依据已生成的内容来预测下一帧,从而实现“边生成边播放”,极大降低延迟。然而,直接训练自回归视频模型容易引发“误差累积”问题——前一帧的微小偏差会在后续帧中被不断放大,最终导致视频质量崩溃。
研究团队设计了一套三步走的“知识蒸馏”方案来破解此局。第一步,采用“分布匹配蒸馏”技术,将原本高质量但缓慢的“双向”教师模型,压缩成一个步骤更少的“双向”学生模型,在保留其强大生成能力的同时减少计算量。第二步,为学生模型引入“时间遮挡”机制,强制其仅依据过去帧来预测未来帧,从而完成从“双向”到“单向”(自回归)的架构转换。这一步训练极易不稳定,团队为此设计了专门的参数初始化策略来平稳过渡。第三步,使用“自强迫蒸馏”进行最终精炼——在训练中,让模型模拟真实推理状态:生成每一帧时,只能依赖自身此前实际生成的内容,而非教师模型提供的“完美”答案。通过这种方式,模型学会了在存在真实误差的环境中稳健生成,而非仅仅在理想条件下表现良好。
这套方案甚至前瞻性地考虑了音视频同步生成的场景,专门设计了非对称的时间对齐机制与音频处理流程,以确保未来扩展至有声视频时,声画能够精准同步。
从评分系统到评测协议,研究的严谨之处
值得注意的是,在整个研究体系中,构建可靠的自动化评分系统本身就是一项艰巨且关键的任务。团队参考了HPSv3的训练范式,以Qwen3.5视觉语言模型作为特征提取骨干,结合多层感知机输出分数,并引入了“不确定性感知排序损失”来提升评分的一致性与鲁棒性。他们为此专门收集并标注了涵盖视频美学、文本-视频对齐、图像美学、文本-图像对齐四个维度的专用数据集。
在人工评测方面,团队采用了更为科学和务实的“好-持平-差”三档比较协议,而非强制要求评测者在每对视频中必须选出优胜者。这种设计承认了“两者质量相当”这一常见情况,避免了强迫选择引入的随机噪声,使评测结果更可靠。评测维度全面覆盖了视觉质量、运动质量与文本对齐三个方面。
在结论部分,研究团队也明确指出了当前框架的局限性:文本对齐维度的提升效果相对有限,其根本原因在于现有对齐评分系统的准确性尚待提高。他们将“开发更精准的文本-视频对齐评估体系”列为未来工作的重点方向,体现了严谨、求实的科研态度。
这对普通用户和行业意味着什么
归根结底,这项研究系统性地将视频AI从“能用”推进到了“好用”的层面。四个阶段各司其职:第一阶段确保行为稳定可靠,第二阶段提升视觉生成质量,第三阶段弥补用户指令的不足,第四阶段攻克生成速度的瓶颈。
对于普通用户而言,这意味着未来使用AI生成视频时,将不再需要为构思复杂“魔法提示词”而绞尽脑汁,也无需忍受画面诡异、跳帧卡顿的糟糕体验,更不必经历漫长的等待。AI视频制作的门槛将显著降低,体验将更加流畅、可控。
对于行业和开发者而言,这套框架提供了一份可复用的“后训练”标准蓝图,能够应用于不同的基础视频大模型,显著降低了将实验室原型转化为稳定、可商用产品的工程门槛,为AI视频生成的规模化应用铺平了道路。
当然,研究团队也清醒地认识到,这远非终点。提示词增强仅优化了输入侧,视频生成模型优化了输出侧,两者之间更深度的协同、以及在生成长视频、复杂多角色场景时如何保持全局一致性,仍有大量探索空间。但作为一项系统性的工程实践总结,这项研究无疑为整个AI视频生成领域提供了一个极具价值的完整参考范本和技术路径。
Q&A
Q1:视频生成AI的后训练框架和预训练有什么区别?
A:预训练是让AI通过海量数据学习“视频是什么”和基础生成能力,相当于打下广泛的理论基础。后训练则是针对实际部署中的具体问题(如错误纠正、质量提升、速度优化、指令理解)进行针对性调整与精炼,相当于上岗前的专项实战培训。本论文提出的四阶段后训练框架,核心目标正是系统性地弥合预训练大模型的基础能力与真实用户对“高质量、高稳定、高效率”视频生成需求之间的差距。
Q2:GRPO奖惩机制训练视频AI时,奖励分数是怎么给出来的?
A:奖励分数来源于四个独立的自动化评分模型构成的评估体系:视频整体美学评分、单帧图像质量评分、运动流畅度评分以及文本-视频语义一致性评分。综合这四个模型的打分,通过精心设计的融合策略形成最终的奖励信号,从而引导模型朝着多维度均衡优化的方向改进。其中的关键在于动态调配四个维度的权重,防止优化过程被某一单项指标(如单纯追求画面好看)过度主导,从而确保生成结果的综合体验最优。
Q3:提示词增强模型为什么不会把用户的原始意思改掉?
A:因为在训练提示词增强模型时,“保持语义一致性”(即文本-视频对齐)被设定为一个核心的奖励维度。如果模型将用户的简单描述“翻译”或扩写成毫不相关的内容,导致最终生成的视频严重偏离用户原意,它将在“语义一致性”维度获得低分,从而在强化学习训练过程中受到抑制。实测数据也证实,加入提示词增强后,语义一致性评分保持稳定,说明模型在丰富细节、优化描述的同时,有效维护了用户核心意图的准确性,做到了“锦上添花”而非“篡改原意”。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
DeepSeek终端助手发布 美国开发者打造命令行AI工具
最近在终端编程工具领域,有个项目挺有意思,叫 DeepSeek-TUI。简单来说,你可以把它看作是为 DeepSeek 模型量身打造的“终端版编程智能体”,类似于 Claude Code 或 GPT 的 Codex 这类工具,当然,这个类比只是为了方便理解。 这事儿起因还挺有趣。前两天在社交媒体上,
Claude AI梦境研究:人工智能的潜意识与进化
Claude开始“做梦”了。这听起来有点科幻,但确实是Anthropic为其Claude Managed Agents平台推出的最新功能——“Dreaming”。 就像人有时白天百思不得其解,睡一觉反而豁然开朗一样,现在AI也学会了这招。这项功能允许AI在工作间隙“睡觉”反思,进行记忆清理、规律总结
宇树人形机器人应用商店UniStore正式开放
今天,人形机器人领域迎来一个里程碑式进展。宇树科技正式宣布,其全球首创的人形机器人任务动作应用商店——UniStore官方共享应用平台,现已面向全球开发者与用户全面开放。 通俗地讲,UniStore平台相当于人形机器人的“专属应用商店”。开发者能够上传自主编写的机器人动作程序与任务模块,用户则可像在
Midjourney体积雾模拟教程 轻松营造氛围感画面
在Midjourney中创作具有真实空气感与空间深度的雾气效果时,你是否常遇到画面扁平或质感虚假的困扰?这通常源于提示词与参数组合不够精准——真正的体积雾效需要一套系统化的指令策略,而非简单添加“fog”一词。以下这套经过反复验证的实战方法,将引导你把“雾气”从一层单调的贴图,转化为真正弥漫于场景之
智能电池摄像头选购指南 灵活安装与安全监控全解析
如今,家庭安防的选择越来越丰富,其中,智能电池摄像头以其独特的灵活性和强大的安全性能,正成为许多用户的首选。它不再仅仅是“记录画面”,而是通过先进的目标检测算法,将主动预警和智能监控提升到了一个新高度。无论是实时记录动态,还是及时推送通知,都让安全防护变得更加主动和便捷。加上其免布线的安装特性和多样
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

