蚂蚁集团与清华开源AReaL:AI推理训练速度提升2.77倍
3月4日,IT之家报道称蚂蚁集团与清华大学联合推出开源强化学习训练框架AReaL v1.0稳定版。这一大规模异步强化学习系统通过解耦生成与训练流程,显著提升大语言模型(特别是推理模型)的训练效率。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
据IT之家引述的论文介绍,随着大语言模型向"大推理模型"(LRM)演进,强化学习已成为提升模型逻辑推理能力的关键技术。
然而,现有的强化学习训练系统主要采用同步机制,即生成阶段必须等待批次中所有输出(通常是最长的那个)完成后才能开始训练。

这种"木桶效应"导致大量GPU算力处于闲置状态,制约了训练效率,在处理需要生成数万个思考标记的复杂推理任务时表现尤为明显。
研究团队为解决这一瓶颈,开发了AReaL系统,这是一个完全异步的强化学习训练架构。AReaL彻底解耦了模型的生成与训练过程:生成工作器可以连续不断地产生新数据,而训练工作器则在收集到足够数据后立即更新模型。

这种流水线式的并行设计消除了同步等待时间,显著提升了硬件资源的利用率,让整个训练过程更加流畅高效。

在算法层面,AReaL面临异步带来的数据"陈旧度"挑战,即训练数据可能来自旧版本的模型。为此,团队设计了陈旧度感知训练机制,通过控制工作负载来平衡数据的新鲜度。
同时,研究团队提出了解耦PPO目标函数,并支持"可中断生成"技术,允许模型在生成过程中无缝更新权重。

实验结果验证了AReaL的卓越性能。在数学和代码推理基准测试中,使用相同数量的GPU,AReaL相比最先进的同步系统,训练速度最高提升2.77倍。更令人惊喜的是,这种加速并未以牺牲准确率为代价,模型的解题能力在部分任务上甚至有所提升。


IT之家附上参考资料
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
2025年净亏864万 欣天科技股价单日大跌7%异动解析
欣天科技(300615 SZ)现跌7 09%报13 62元。欣天科技发布2025年年报显示,公司全年实现营收4 74亿元,同比增长70 9%;归母净利润-864 88万元。(格隆汇)
贵广网络跌逾4%,公司澄清未布局算力相关业务
贵广网络(600996 SH)现跌4 45%,报10 53元。贵广网络公布,近期资本市场对“算力业务”等概念关注度较高,截至目前,公司不涉及算力相关业务。除“算力业务”相关传闻外,公司未发现其他对公
奥迪A6L大幅降价超10万,华为智驾缺席下的转型挑战几何?
近日,全新奥迪A6L正式登陆市场,推出4款车型,售价区间为32 29万至43 59万元。与2025款42 79万元的起售价相比,此次最新指导价大幅下调超10万元,引发市场广泛关注。然而,记者走访北京
芯海科技跌超4% A股异动剖析,股价创一年新低
芯海科技(688595 SH)今日盘中一度跌4 39%至29 19元,股价创去年4月10日以来近一年新低。芯海科技公布2025年年度报告,期内公司实现营收8 49亿元,同比增长20 82%;归属于上
A股三大指数齐跌,创业板指跌逾2%,两市近4400股下挫
A股三大指数今日集体下挫,截至收盘,沪指跌0 8%报3891点,深证成指跌1 81%,创业板指跌2 7%。全市场成交额2 01万亿元,较前一交易日增量783亿元,近4400股下跌。盘面上,张雪机车登
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

