让Agent越用越强：AReaL2.0开源，打造面向自演进智能体的RL基础设施

AI热点日报时间：2026-07-03

热点解读

与社区共同推进自演进智能体生态发展 7 月 2 日，开源强化学习基础设施项目 AReaL 正式发布 2 0 版本。AReaL 旨在打通基础模型训练与现代智能体应用之间的链路，为 Agent 应用场景提供高效的强化学习训练支撑。此次发布的 AReaL 2 0 版本面向已经

先说几个核心判断：当前Agent正在大规模进入真实生产环境，写代码、查资料、调用工具，在企业系统中完成越来越复杂的任务。但一个不容忽视的痛点也随之浮现——Agent每天都在工作，却很难从工作中真正成长。

7月2日，开源强化学习基础设施项目AReaL正式发布2.0版本。这个版本的定位很明确：打通基础模型训练与现代智能体应用之间的链路，为Agent应用场景提供高效的强化学习训练支撑。

那么，AReaL 2.0到底解决了什么具体问题？

答案是——Agent上线之后的持续学习难题。

在真实业务中，Agent会产生大量有价值的经验：哪些任务完成得漂亮，哪里调用工具失败了，用户为什么不满意，某一步决策是否走偏了方向。然而，这些信息目前大多只是以日志形式被保存下来，很难稳定、安全地转化为能力提升的养料。

AReaL 2.0的设计思路挺直接：开发者不需要重新开发Agent，只需让Agent原本发给大模型的请求经过AReaL 2.0的统一推理入口，就可以接入在线强化学习流程。换言之，Agent在完成真实任务时产生的交互过程，可以被记录、整理，并接入后续训练流程，用于持续优化底层模型——让Agent在安全可控的前提下越用越强。

图说：AReaL 2.0 在线强化学习（Online RL）架构示意

以Hermes Agent为例，这个场景最能说明问题。Hermes依然照常接收任务、规划步骤、调用模型，但AReaL 2.0在后台默默记录它完成任务时的关键交互过程，并结合任务结束后的反馈或奖励信号，把这些真实轨迹用于后续训练。开发者也可以把Hermes替换成自己的Agent和任务环境，用同样的方式搭建在线强化学习流程。

这意味着，Agent的能力提升不再只依赖人工构造数据、离线训练和重新部署。真实任务中的多轮对话、工具调用、执行结果和反馈信号，都有机会成为模型继续学习的材料。

这一点在企业场景中尤为关键。在企业工作流中的Agent面对的是真实、复杂、不断变化的任务：代码库会更新，业务流程会调整，用户需求会变化，工具和系统也可能发生改变。如果Agent的能力一旦上线就基本固定，它就很难长期适应真实环境。AReaL 2.0希望补上的，正是从“会使用工具”到“能从使用中学习”之间缺失的一环。

当然，真实业务中的持续学习不能简单地理解为“收集数据再训练”。Agent可能接触代码、客户信息、企业知识库和内部系统，因此训练链路必须考虑权限控制、数据脱敏、隔离和审计等要求。AReaL 2.0在系统设计中引入了面向Agent轨迹的数据袋里机制，让真实任务数据进入训练流程时，可以在更安全、可控的前提下被管理和使用。

AReaL团队在技术报告中点出了一个关键瓶颈：自演进Agent能否成功，不只取决于模型本身有多强，也不只取决于强化学习算法是否先进，而是缺少一套能够服务真实Agent的在线强化学习基础设施。AReaL 2.0正是面向下一代智能体应用进行的架构升级——把Agent服务、真实任务轨迹、数据治理和在线强化学习训练连接起来，让Agent在部署之后继续学习具备了可落地的工程基础。

从更长远的角度看，AReaL 2.0指向的是下一代智能体应用的演进范式：Agent不再只是一次性训练和部署的工具，而是在真实环境中不断获得反馈，把成功和失败都转化为经验，并在安全边界内持续提升自身能力。

关于项目背景：AReaL由蚂蚁集团、清华大学和香港科技大学等团队于2024年发起。2026年5月，AReaL正式从蚂蚁InclusionAI孵化成为独立开源社区，并加入PyTorch Foundation Ecosystem项目，进一步融入主流强化学习基础设施生态。随着社区独立发展，AReaL也在持续获得产业和开源生态伙伴的参与和支持，包括华&为云团队、MindLab等。

未来，AReaL将继续围绕在线强化学习、自动化评估和多模态智能体训练等方向迭代，与社区共同推进自演进智能体生态发展。目前，AReaL 2.0技术报告和代码已开源。

GitHub 仓库：https://github.com/areal-project/AReaL
技术报告：https://arxiv.org/abs/2607.01120

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：让Agent越用越强：AReaL2.0开源，打造面向自演进智能体的RL基础设施要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.qbitai.com/2026/07/442134.html

其他

上一篇：清华破格录取的学生竟然是虚拟人物

下一篇：人社部启动2025年第七届百日千万招聘专项行动

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周万知AI错题分析功能使用指南 02 / 本周万知AI产品介绍PPT制作教程 03 / 本周SunoAI元标签助AI识别歌词咬字处理技巧 04 / 本周万知AI商业计划书编写步骤与技巧完整指南 05 / 本周如何用MiMo代码编排Agent实现自动化性能评估协同

01 / 本月万知AI错题分析功能使用指南 02 / 本月万知AI产品介绍PPT制作教程 03 / 本月SunoAI元标签助AI识别歌词咬字处理技巧 04 / 本月万知AI商业计划书编写步骤与技巧完整指南 05 / 本月如何用MiMo代码编排Agent实现自动化性能评估协同

热点快看

07-03 15:13万知AI错题分析功能使用指南 07-03 15:13万知AI产品介绍PPT制作教程 07-03 15:13SunoAI元标签助AI识别歌词咬字处理技巧 07-03 15:13万知AI商业计划书编写步骤与技巧完整指南 07-03 15:13如何用MiMo代码编排Agent实现自动化性能评估协同

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别