浙江大学与京东研究院合作实现AI视频训练效率提升6倍

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

浙江大学与京东研究院合作实现AI视频训练效率提升6倍

热心网友时间：2026-05-26

转载

看到那些栩栩如生的AI生成视频，你可能不会想到，其背后模型训练的“调教”过程，成本高昂得令人咋舌。训练一个拥有140亿参数的视频生成模型，往往需要消耗数百个GPU日——这相当于让一台顶级配置的服务器不眠不休地工作数年之久。如此巨大的资源消耗，不仅让普通研究者和初创团队望而却步，即便是大型科技公司也需要精打细算。

浙江大学联手京东研究院：让AI视频训练快6倍的

正是这一行业痛点，催生了一项突破性的研究。由浙江大学、京东未来研究院与清华大学的研究人员共同完成的工作，在第43届国际机器学习大会（ICML）上发表，论文编号为arXiv:2605.15980v1。他们提出了一种名为“Flash-GRPO”的创新方法，据实验验证，能将视频AI模型的训练速度提升高达6倍，同时还能显著提升生成视频的质量与稳定性。

那么，这个被誉为“闪电训练法”的技术，其核心秘诀究竟是什么？

一、视频AI训练为何如此“烧资源”？

要理解Flash-GRPO的价值，首先需要厘清当前主流视频生成模型是如何训练的。

可以将训练AI生成视频，类比为教导一位学徒绘制动态分镜。学徒初始阶段只能输出类似电视噪点的随机像素。随后，模型需要逐步“去噪”，经过数十个步骤的迭代，最终将模糊的初始状态转化为一段清晰、连贯的视频序列。

瓶颈就出现在这个迭代过程中。传统的训练方法（例如GRPO，即群体相对策略优化）要求在每个去噪步骤后，都对模型输出进行评分和策略更新。这就好比烹饪教学中，导师不仅要对最终菜肴打分，还需要在备料、翻炒、调味的每一个中间环节都进行实时指导。这种“全程监督”模式虽然细致，但代价是计算开销呈指数级增长。

对于视频生成任务，这种模式直接导致了天价的计算成本。此前，业界尝试过“偷懒”方案，例如采用“滑动窗口”法，只对连续几个步骤进行训练。但结果往往是模型性能极不稳定，生成质量波动巨大，甚至出现训练崩溃。研究界长期陷入“效率”与“效果”难以兼得的困境。

二、深层症结：两个被忽略的“系统偏差”

研究团队像侦探一样深入剖析了“偷懒训练”失效的根本原因，最终定位了两个关键的系统性偏差。

第一个偏差称为“时间点混淆问题”。在从噪声到清晰画面的几十个生成步骤中，早期步骤的画面极为模糊，优劣难判；后期步骤的画面则细节丰富，易于评估。如果训练时将不同步骤的生成样本混合在一起进行评分比较，就如同将“素描草稿”与“完成上色的画作”放在同一标准下评判，得分完全失去了指导意义——前者得分低可能仅仅因为处于困难阶段，而非画得不好。

传统的简化训练方法正是陷入了此误区。它将不同时间点的样本评分混杂计算，导致奖励信号混乱，模型无法获得清晰、有效的学习方向。

第二个偏差更为隐蔽，称为“梯度尺度失衡问题”。简单理解，在训练的不同时间点，模型参数更新的“步幅”存在固有的、巨大的数量级差异。这种差异并非源于任务本身的重要性，而是由算法底层数学形式所引入的。研究团队通过严格推导证明，传统方法中存在一个隐藏的系数 λ(t)，其数值在不同时间点上可能相差数个数量级。结果就是，某些非关键的早期时间点，其梯度反而主导了整个优化过程，而真正决定画面质量的后期关键步骤却被边缘化。这好比在一个合唱团中，几个音准不佳的成员音量最大，反而掩盖了主唱的声音。

三、核心突破一：实现公平评分的“同时段分组法”

针对第一个偏差，研究团队设计了“同时段分组”训练策略。

沿用绘画的比喻：新方法规定，对于同一个创作主题（例如“绘制一只奔跑的猎豹”），所有模型样本必须在同一个指定的生成阶段接受评估。例如，本轮所有样本都在“初步轮廓勾勒”阶段进行评比，下一轮则全部在“细节纹理渲染”阶段进行评比。这样，评分就在完全公平的难度基准上进行，优劣立判。

具体技术实现上，在每次训练迭代中，每个文本提示词会被随机分配一个特定的去噪时间点，该提示词下生成的所有样本都在这个相同的时间点上进行评估和优化。不同的提示词可以被分配到不同的时间点，从而确保一个训练批次能够覆盖所有生成阶段。

这就像一场分阶段进行的厨艺大赛，不再将“正在切菜的选手A”与“正在摆盘的选手B”的成绩直接对比，而是让所有制作同一道菜的选手，在同一烹饪环节（如刀工环节）同时接受评判。由此，模型获得的奖励信号才是准确、有指导性的。

更精妙的设计在于，在整个视频生成推理过程中，只有被选中的那个“评分时间点”采用带有探索性的随机采样模式，而其他所有时间点均采用稳定的确定性模式。这保证了最终生成的视频本身具有高质量，从而能为模型提供更可靠、更准确的评分信号。

四、核心突破二：平衡优化力度的“时间梯度校正法”

针对第二个梯度失衡的偏差，研究团队提出了“时间梯度校正”技术。

回顾前文提到的导致力度失衡的 λ(t) 系数。Flash-GRPO的解决方案简洁而有力：在计算策略梯度损失函数时，直接除以这个系数 λ(t)。这就如同为一把刻度不均匀的尺子加装了精准的校准器，确保在任何位置测量，其标准都是一致的。

从数学原理上看，这一修正是基于严格的推导。研究团队发现，λ(t) 实际上源于算法数值离散化过程中引入的伪因子，并不反映真实的训练需求。将其消除在理论上是合理的，且不会损失任何有效的学习信息。

实验结果表明，这一看似微小的改动带来了显著的效果。训练过程中梯度的波动从原先的剧烈震荡变得平滑稳定。原本常见的因梯度爆炸或消失导致的“训练崩溃”现象得以杜绝，整个学习过程转化为一条平稳上升的曲线。

五、性能验证：从13亿到140亿参数模型的全面领先

任何优秀的理论都需要经受实践的检验。研究团队在开源的Wan2.1视频生成模型系列上进行了广泛实验，覆盖了从13亿到140亿的参数规模。

在权威的VBench视频质量评估基准上，使用350个GPU小时训练的Wan2.1-1.3B模型，采用Flash-GRPO方法后，在美学质量项上得分66.43，在主体一致性项上得分98.70，全面超越了所有对比方法。而简单的偷懒方法Flow-GRPO-Fast1则在成像质量上出现了明显下滑。

训练动态曲线的对比更具说服力。当关闭额外的稳定性约束（KL正则化）时，传统偷懒方法的训练奖励值从一开始就持续下跌并伴随剧烈震荡；而Flash-GRPO则从约3分开始，平稳地攀升至接近5分。

在综合性能评估上，Flash-GRPO达到了约5.4的HPSv3奖励分数，而Flow-GRPO-Fast1仅能达到4.6左右。即便是与进行完整多步训练的基线方法相比，Flash-GRPO也在更短的训练时间内达到了更高的性能上限。

研究团队还专门测试了生成视频的“动作质量”。结果显示，Flash-GRPO将模型的动作质量分数从基准的-0.55提升到了-0.28，而对照方法仅为-0.34左右。这表明采用新方法训练的模型，其生成的视频在动作流畅度与物理合理性方面有了显著改善。

尤为重要的是，这套方法在140亿参数的庞大模型上同样表现卓越。当模型规模急剧扩大时，传统方法的训练成本与不稳定性同步飙升，而Flash-GRPO依然保持了稳定的单调性能增长，证明了其具备支撑工业级大模型训练的潜力。

六、视觉对比：生成效果的直观提升

除了冷冰冰的指标，实际生成的视频效果更具冲击力。

在一段“蒸汽火车穿越雪山”的生成场景中，基线模型生成的火车运动略显呆板；而采用Flash-GRPO训练的版本，火车则喷吐着浓烟，铿锵有力地驶过山谷，动感与氛围感十足。在“钢铁侠空中飞行”的场景中，Flash-GRPO版本生成的盔甲金属质感更加锐利清晰，飞行姿态流畅自然，背景云层的层次感也更加丰富。

在“小猫进食”的日常场景中，Flash-GRPO版本更精准地捕捉到了小猫低头咀嚼的细微动作，食物与毛发纹理的逼真度更高。在动画风格测试中，如“两只熊猫在竹林中阅读学术论文”，Flash-GRPO不仅准确呈现了构图，还生动保留了每只熊猫独特的神态与姿势。

这些视觉证据强有力地表明，Flash-GRPO不仅在量化指标上领先，在人类视觉感知的实际效果上也实现了质的飞跃。

七、消融研究：验证每个组件的不可或缺性

为了厘清两项改进各自的具体贡献，研究团队进行了系统的“拆解”式消融实验。

以最基础的单步训练方法为基准，其HPSv3奖励分数仅为4.64，甚至略低于未经过训练的原始模型（4.67）。这充分证明了简单粗暴的“偷懒”训练具有破坏性。当仅引入“同时段分组”策略后，分数立刻跃升至5.31，证明了消除时间点混淆能带来巨大收益。在此基础上，再叠加“时间梯度校正”技术，分数进一步提升到5.42，并且训练过程从不稳定变得极度平稳。

这种递进式的实验设计清晰地表明，两项核心技术改进各自都具有独立且重要的价值，而当它们协同工作时，则能释放出最大的效能。

八、行业影响：这项研究将如何改变未来？

探讨至此，这项突破性研究对普通用户、开发者乃至整个行业意味着什么？

其影响可能比我们想象的更为深远。视频生成AI技术正在快速渗透至日常生活的方方面面——从个人短视频创作、电商广告自动生成，到游戏内容开发、电影视觉特效，再到个性化教育视频制作。每一次训练成本的显著降低，都意味着这些先进技术更有可能被广大的中小型创意团队、独立开发者乃至个人创作者所采用，从而打破技术被少数巨头垄断的局面。

Flash-GRPO将训练效率提升了6倍，这意味着原本需要耗费数百万计算资源的大型实验，现在可能只需要十分之一的成本。这种级别的成本下降有望催生大量前所未有的创意应用，例如人人可用的个性化视频生成工具、经济高效的影视级后期解决方案、以及能够动态生成教学内容的智能教育助手等。

归根结底，这项研究的核心贡献在于：它精准地识别并解决了视频AI训练中长期存在的两个“系统性偏差”，并通过优雅的数学修正将其校准，从而实现了“效率与质量兼得”的训练新范式。这种“以少胜多”的智慧——仅在一个关键时间点进行高效训练，却能达成媲美全程训练的效果——本身就是一种精妙的算法艺术。

展望未来，这种方法是否还有优化空间？训练速度能否实现十倍乃至百倍的提升？这些都是值得探索的方向。或许在不久的将来，生成一段电影级质量的AI视频，会变得像今天用美图软件修饰一张照片一样简单快捷。

Q&A

Q1：Flash-GRPO是什么？它解决了什么问题？

A：Flash-GRPO是由浙江大学、京东未来研究院等机构在2026年提出的一种革命性视频AI训练加速框架。它核心解决了训练高质量视频生成模型计算成本过高、效率低下的行业难题。该方法通过创新的“单时间点优化”策略，在保证生成质量的前提下，将训练速度提升了6倍，为大规模视频模型的高效训练提供了新路径。

Q2：Flash-GRPO的两大核心技术革新是什么？

A：其两大核心技术革新是：1. 同时段分组训练：确保同一文本提示下的所有生成样本，都在视频合成的相同去噪阶段进行一致性评估，彻底解决了因阶段难度差异导致的奖励信号混淆问题。2. 时间梯度校正：通过数学方法消除训练目标函数中固有的梯度尺度失衡系数，使得模型在所有生成时间步上的学习贡献度变得均衡，极大增强了训练的稳定性与收敛效率。

Q3：Flash-GRPO的实际效果与性能数据如何？

A：在VBench标准评测中，采用Flash-GRPO训练的Wan2.1-1.3B模型，在美学质量上获得66.43分，在主体一致性上获得98.70的高分，性能全面领先。其HPSv3综合奖励分数达到约5.4，显著优于传统加速方法的4.6左右。该方法已成功验证于高达140亿参数的模型，展现出卓越的扩展性与工业级应用潜力，为降低AI视频生成门槛提供了关键技术支撑。

来源:https://www.techwalker.com/2026/0522/3187891.shtml

上一篇：袁硕解析词元经济如何通过公共服务释放价值

下一篇：国家发改委澄清中国科技企业可接受外商投资