港大与京东探索院联手优化视频AI四步提升实用体验

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

港大与京东探索院联手优化视频AI四步提升实用体验

热心网友时间：2026-05-16

转载

这项由香港大学、京东探索研究院、清华大学、北京大学和浙江大学联合完成的研究，以技术报告形式发布于2026年4月，论文编号为arXiv:2604.25427，有兴趣深入了解的读者可通过该编号查询完整原文。

港大、JD探索院联手出招：视频AI从

你是否曾尝试用AI生成视频，却对结果感到失望？画面与描述不符、人物肢体扭曲、场景光影闪烁，最终视频看起来像是粗糙的拼贴。这并非个例，而是当前AI视频生成技术普遍面临的挑战：模型虽然“能”生成内容，但距离“好用”和“可靠”仍有差距。

针对这一行业核心痛点，来自香港大学、京东探索研究院等顶尖机构的研究团队，提出了一套系统性的解决方案——“视频生成后训练框架”。你可以将其理解为，为一位已掌握基础技能的新员工，设计一套量身定制的“岗前强化培训”，目标是使其从“会操作”升级为“能产出高质量成果”。

预训练的AI，如同刚毕业的新员工

要理解这项工作的价值，需先厘清AI视频生成的两个关键阶段。第一阶段是“预训练”，模型通过“学习”海量的视频-文本配对数据，建立对世界的基本认知，这好比学生完成了系统的理论课程。第二阶段则是“后训练”，旨在针对实际应用中的具体问题（如指令理解偏差、画面抖动、生成缓慢）进行精细化调整与优化，如同毕业生进入岗位后接受专项技能培训与项目实战，以真正创造实用价值。

目前，许多视频AI模型在完成预训练后便直接部署，暴露出三大典型缺陷：对用户提示词（Prompt）的表述方式过于敏感，细微改动可能导致结果迥异；生成视频在时间维度上缺乏连贯性，物体可能出现抖动、变形或消失；此外，高昂的计算成本导致生成速度慢，严重制约了其商业化应用潜力。

为此，研究团队设计了一套循序渐进的四阶段“后训练”课程，旨在系统性地攻克上述难题，提升AI视频生成的质量与效率。

一、打地基：用优质数据让AI学会“稳定执行”

整个流程的第一步，称为“监督微调”。此阶段的核心目标并非追求惊艳的视觉效果，而是确保模型行为的“稳定性”与“可靠性”。

可以做一个类比：假设你要训练一个厨师助手机器人。它或许已熟读百万菜谱，理论知识丰富，但实际操作时，却可能错把盐当糖，或在烹饪中途突然宕机。此时的首要任务，绝非让它挑战满汉全席，而是确保它能准确识别指令、按步骤稳定执行、且不产出有害内容。

研究团队在此阶段，利用一批精心筛选的高质量视频-文本数据，针对AI最常出现的几类严重错误进行定向纠正，包括：无故拒绝执行合理指令、生成逻辑混乱或自相矛盾的内容，以及产出不符合安全规范的内容。

经过这一阶段的“行为矫正”，AI从一个“能力虽强但状态不稳”的“天才”，转变为一个“听话、稳定、具备基本判断力”的“可靠助手”。这个稳定的基线至关重要，是所有后续高级优化得以顺利进行的前提。如果跳过此步，直接进行复杂训练，模型很可能在过程中“跑偏”，出现性能退化。值得一提的是，这一步训练还带来了额外益处：它为模型提供了更广阔的“策略探索空间”，为后续的强化学习积累了更丰富的经验数据。

二、用奖惩机制精细打磨：引导AI追求“视觉卓越”

在确保行为稳定之后，下一步是引导AI追求更高的生成质量标准。这一阶段采用了“基于人类反馈的强化学习”方法，具体而言是GRPO算法。

用奖惩机制训练AI，其原理类似于训练动物。当动物完成基础指令后，若想让它掌握更复杂的动作，就需要在它做对时给予奖励，做错时不予奖励或给予轻微惩罚。不同的是，AI的“奖励”是由一系列自动化评分模型给出的数值信号。

研究中，团队构建了四个独立的评分模型，分别评估视频的不同维度：整体美学（光影、构图、电影感）、单帧图像质量（清晰度、细节）、运动流畅度（自然、无抖动跳帧），以及语义一致性（视频内容与文本描述是否精准匹配）。

然而，协调这四位“评委”是一项挑战，因为不同维度的优化目标有时会相互冲突。例如，过度追求视觉华丽可能牺牲语义准确性；而严格对齐文本又可能导致画面呆板。研究团队耗费了大量精力设计评分融合策略与动态权重分配，以确保优化方向是追求“整体最优解”，而非某个单一维度的“极端表现”。

在技术实现上，团队面临视频生成特有的挑战：生成一段视频需经过多步连续计算，但奖励信号仅在最终生成完成后才给出。这好比厨师花费数小时烹制一道菜肴，评委仅在品尝最后一口时打分。如何将这一口的评价，反向传递以指导烹饪过程中的每一步，是个技术难题。

为此，团队创新性地采用了“同步时间步分组”策略。简而言之，它将生成过程的不同时间节点分配给不同的训练批次，仅在特定节点引入可控的随机探索，其余时间则保持确定性生成。此举有效降低了单次训练的计算开销，同时确保了模型仍能通过探索发现更优的生成策略。此外，团队还引入了“时序梯度校正”机制，通过数学方法标准化不同时间步的学习信号强度，避免了训练过程因某些步骤影响过大或过小而失衡。

实际评测表明，经过此阶段训练，视频的整体人工评分平均提升了31%。其中，视觉质量与运动流畅度的改善最为显著，而语义一致性的提升相对有限。团队坦诚指出，这主要是受限于当前文本-视频对齐评分模型自身的准确性，导致该维度的奖励信号不够可靠，从而影响了优化效果的上限。

三、从源头优化：训练一个“智能提示词增强器”

前两个阶段主要解决了AI自身生成质量的问题，但另一个关键挑战依然存在：用户输入的描述往往过于简略或模糊。例如，“一只猫在玩耍”这样的指令，留给AI的想象空间过大，光影、场景、具体动作等细节均需AI自行“脑补”，结果自然难以精准可控。

第三阶段的解决方案，是训练一个独立的“提示词增强”语言模型，充当用户与视频AI之间的“专业翻译官”或“创意扩写助手”。用户给出简单描述，由它进行扩充、润色与细节补充，再将优化后的、信息量更丰富的描述传递给视频生成模型。

这个“翻译官”的训练方式，与第二阶段异曲同工——同样采用基于奖励的强化学习，只不过训练对象换成了语言模型，奖励目标也相应调整。其评分主要关注三个维度：增强后的描述是否忠实于用户原意（防止“翻译”失真）；最终生成的视频视觉质量是否得到提升；以及增强后的描述格式是否规范、长度是否适宜，能否被下游视频AI高效解析。

此方案的一个显著优势在于：训练“提示词增强器”时，视频生成模型本身是“冻结”不参与训练的。这意味着训练成本大幅降低，并且同一套提示词增强模型可以灵活适配于不同的底层视频AI，通用性和可移植性很强。

实测效果显示，引入提示词增强后，视频的整体人工评分在之前31%提升的基础上，又获得了约20%的额外增益。提升主要仍来源于视觉与运动质量，而语义一致性评分基本保持稳定——这证明“翻译官”在丰富描述细节的同时，成功守住了“信达雅”中“信”的底线，没有曲解用户核心意图。

四、性能提速：让高质量视频实现“实时生成”

至此，视频生成质量已大幅提升，但最后一个现实瓶颈亟待解决：生成速度。当前主流视频AI多采用“双向注意力”机制，生成每一帧时都需要回顾整个视频序列的所有历史与未来信息。这就像写作时，每写一个字都要通读全文，效率低下。

更高效的方案是“自回归”架构，即像人类说话一样，只依据已生成的内容来预测下一帧，从而实现“边生成边播放”，极大降低延迟。然而，直接训练自回归视频模型容易引发“误差累积”问题——前一帧的微小偏差会在后续帧中被不断放大，最终导致视频质量崩溃。

研究团队设计了一套三步走的“知识蒸馏”方案来破解此局。第一步，采用“分布匹配蒸馏”技术，将原本高质量但缓慢的“双向”教师模型，压缩成一个步骤更少的“双向”学生模型，在保留其强大生成能力的同时减少计算量。第二步，为学生模型引入“时间遮挡”机制，强制其仅依据过去帧来预测未来帧，从而完成从“双向”到“单向”（自回归）的架构转换。这一步训练极易不稳定，团队为此设计了专门的参数初始化策略来平稳过渡。第三步，使用“自强迫蒸馏”进行最终精炼——在训练中，让模型模拟真实推理状态：生成每一帧时，只能依赖自身此前实际生成的内容，而非教师模型提供的“完美”答案。通过这种方式，模型学会了在存在真实误差的环境中稳健生成，而非仅仅在理想条件下表现良好。

这套方案甚至前瞻性地考虑了音视频同步生成的场景，专门设计了非对称的时间对齐机制与音频处理流程，以确保未来扩展至有声视频时，声画能够精准同步。

从评分系统到评测协议，研究的严谨之处

值得注意的是，在整个研究体系中，构建可靠的自动化评分系统本身就是一项艰巨且关键的任务。团队参考了HPSv3的训练范式，以Qwen3.5视觉语言模型作为特征提取骨干，结合多层感知机输出分数，并引入了“不确定性感知排序损失”来提升评分的一致性与鲁棒性。他们为此专门收集并标注了涵盖视频美学、文本-视频对齐、图像美学、文本-图像对齐四个维度的专用数据集。

在人工评测方面，团队采用了更为科学和务实的“好-持平-差”三档比较协议，而非强制要求评测者在每对视频中必须选出优胜者。这种设计承认了“两者质量相当”这一常见情况，避免了强迫选择引入的随机噪声，使评测结果更可靠。评测维度全面覆盖了视觉质量、运动质量与文本对齐三个方面。

在结论部分，研究团队也明确指出了当前框架的局限性：文本对齐维度的提升效果相对有限，其根本原因在于现有对齐评分系统的准确性尚待提高。他们将“开发更精准的文本-视频对齐评估体系”列为未来工作的重点方向，体现了严谨、求实的科研态度。

这对普通用户和行业意味着什么

归根结底，这项研究系统性地将视频AI从“能用”推进到了“好用”的层面。四个阶段各司其职：第一阶段确保行为稳定可靠，第二阶段提升视觉生成质量，第三阶段弥补用户指令的不足，第四阶段攻克生成速度的瓶颈。

对于普通用户而言，这意味着未来使用AI生成视频时，将不再需要为构思复杂“魔法提示词”而绞尽脑汁，也无需忍受画面诡异、跳帧卡顿的糟糕体验，更不必经历漫长的等待。AI视频制作的门槛将显著降低，体验将更加流畅、可控。

对于行业和开发者而言，这套框架提供了一份可复用的“后训练”标准蓝图，能够应用于不同的基础视频大模型，显著降低了将实验室原型转化为稳定、可商用产品的工程门槛，为AI视频生成的规模化应用铺平了道路。

当然，研究团队也清醒地认识到，这远非终点。提示词增强仅优化了输入侧，视频生成模型优化了输出侧，两者之间更深度的协同、以及在生成长视频、复杂多角色场景时如何保持全局一致性，仍有大量探索空间。但作为一项系统性的工程实践总结，这项研究无疑为整个AI视频生成领域提供了一个极具价值的完整参考范本和技术路径。

Q&A

Q1：视频生成AI的后训练框架和预训练有什么区别？

A：预训练是让AI通过海量数据学习“视频是什么”和基础生成能力，相当于打下广泛的理论基础。后训练则是针对实际部署中的具体问题（如错误纠正、质量提升、速度优化、指令理解）进行针对性调整与精炼，相当于上岗前的专项实战培训。本论文提出的四阶段后训练框架，核心目标正是系统性地弥合预训练大模型的基础能力与真实用户对“高质量、高稳定、高效率”视频生成需求之间的差距。

Q2：GRPO奖惩机制训练视频AI时，奖励分数是怎么给出来的？

A：奖励分数来源于四个独立的自动化评分模型构成的评估体系：视频整体美学评分、单帧图像质量评分、运动流畅度评分以及文本-视频语义一致性评分。综合这四个模型的打分，通过精心设计的融合策略形成最终的奖励信号，从而引导模型朝着多维度均衡优化的方向改进。其中的关键在于动态调配四个维度的权重，防止优化过程被某一单项指标（如单纯追求画面好看）过度主导，从而确保生成结果的综合体验最优。

Q3：提示词增强模型为什么不会把用户的原始意思改掉？

A：因为在训练提示词增强模型时，“保持语义一致性”（即文本-视频对齐）被设定为一个核心的奖励维度。如果模型将用户的简单描述“翻译”或扩写成毫不相关的内容，导致最终生成的视频严重偏离用户原意，它将在“语义一致性”维度获得低分，从而在强化学习训练过程中受到抑制。实测数据也证实，加入提示词增强后，语义一致性评分保持稳定，说明模型在丰富细节、优化描述的同时，有效维护了用户核心意图的准确性，做到了“锦上添花”而非“篡改原意”。

来源:https://www.techwalker.com/2026/0506/3185863.shtml

上一篇：中科院研发230M手机AI模型小体积如何超越70亿参数大模型

下一篇：英伟达加州理工学院研究AI虚拟荒岛自学能力提升方法