当前位置: 首页
AI
智能体自主进化技能从失败中学习超越人类编程

智能体自主进化技能从失败中学习超越人类编程

热心网友 时间:2026-05-19
转载

过去一年,智能体(Agent)技术取得了突破性进展,其核心能力主要体现在两大方面:学会调用各类工具,以及掌握预设的技能(Skill)。然而,一个根本性的发展瓶颈依然存在:当前的智能体普遍缺乏从自身错误中学习并实现持续进化的能力。

目前,智能体所依赖的技能大多来源于外部——由工程师手动编码、社区贡献或通过插件市场安装。这种模式带来了三个显著的挑战:首先,技能库的增长严重依赖人类工程师的持续投入,扩展性受限;其次,外部技能的质量参差不齐,稳定性难以保证;最后,这些外部技能与智能体自身的决策逻辑和策略可能不完全匹配,容易导致执行效率低下或决策冲突。

那么,智能体能否像人类一样,从亲身实践中总结经验教训,实现自主进化与能力提升?近期,一篇被顶级机器学习会议ICML 2026接收的论文《EvolveR》,为这一问题提供了一个极具启发性的创新解决方案。

图片

这项前沿研究致力于让智能体摆脱被动安装外部技能的局限,转而从自身成功与失败的任务轨迹中,自动提炼、蒸馏出可复用的“经验原则”。这些内生的经验能在后续的相似任务中被智能检索、灵活应用并不断强化,从而驱动智能体实现真正的自主成长与持续优化。

图片

△EvolveR与现有智能体学习范式对比图

简而言之,EvolveR聚焦于智能体发展的下一个关键跃迁:从“会使用工具和技能”进阶到“能从自身经验中生长出新的认知技能”。

EvolveR核心机制:将交互轨迹蒸馏为智能体的“认知技能”

EvolveR的核心思想非常直观且深刻:智能体在每次完成任务后,不应仅仅生成一堆日志文件便结束;它更应该具备从这些交互日志中,主动提炼出对未来任务具有普适性价值的“经验策略”的能力。

为了实现这一目标,EvolveR为智能体设计了一个完整的、自我驱动的闭环生命周期:

  1. 在线交互与执行:智能体面对新任务时,同步查询外部知识库和内部经验库,生成完整的推理与执行轨迹。
  2. 离线自蒸馏与总结:在参数冻结状态下,智能体回顾自己成功与失败的轨迹,主动归纳出简洁、通用、可迁移的经验策略。
  3. 经验库动态维护:系统对新产生的经验进行语义去重、合并优化,并基于动态效用评分机制进行筛选与淘汰,确保只保留高效、核心的经验。
  4. 策略进化与学习:利用强化学习算法训练模型,使其学会在恰当的时机精准检索并有效应用这些内部经验,优化决策流程。

这里所定义的“经验”,并非传统的工具插件或API,而更像是一种内化的“认知技能”或高阶思维模式。例如:

  • 当遇到需要比较分析的问题时,应先并行收集两个对象的关键信息,再进行系统性对比。
  • 在判断影视作品中的人物关系时,不能仅凭角色名称联想演员,必须查证具体的角色描述或剧情上下文。
  • 如果一次网络搜索返回的结果不充分,不应机械重复相同查询,而应尝试改写关键词、变换搜索角度或使用高级搜索语法。

关键在于,这些宝贵的经验并非由外部教师模型或人类工程师强行灌输,而是智能体从自身的成败实践中主动归纳、抽象出来的,与自身策略高度对齐。

图片

△EvolveR完整生命周期示意图

构建可筛选、可评分、可进化的智能经验库

许多现有的智能体记忆系统只是简单地保存原始轨迹或进行自然语言反思。而EvolveR则更强调对经验库的主动“维护”与“管理”。

在EvolveR框架中,每一条经验都会记录其被调用的次数和成功应用的次数,系统据此计算一个动态的效用分数。分数持续低于阈值的低效或过时经验会被自动“剪枝”淘汰,语义高度重复的经验则会被合并精简。这套机制确保了智能体的“经验大脑”始终保持轻盈、高效与纯净,避免被无效、冗余或过时的信息拖累性能。

这一点对于当前日益臃肿的智能体技能生态尤为重要。当智能体安装的外部技能和积累的内部记忆越来越多时,核心挑战将不再是“有没有经验可用”,而是:哪些经验在当前上下文下真正有效?哪些经验已经过时?哪些经验彼此冗余可以合并?哪些经验甚至可能产生误导?EvolveR的经验库维护机制正是为了解决这些问题。

利用强化学习让智能体学会“如何善用经验”

EvolveR与普通经验检索系统的根本区别在于:它不只是简单地将经验文本拼接到模型的上下文窗口中。在在线交互阶段,智能体可以通过特定的“检索”动作,主动查询内部经验库,再结合外部知识查询的结果,进行综合推理并最终给出答案。

随后,研究团队使用GRPO等强化学习算法,对这些在经验指导下的行为轨迹进行优化训练。其奖励函数的设计颇具巧思:它不仅评估最终答案的正确性(结果奖励),还会精细评估推理格式的规范性、经验检索的合理性以及知识检索的有效性(格式奖励)。

如果仅依赖最终答案对错这种“稀疏奖励”,智能体很难学会“如何善用经验”这类复杂的中间过程行为。为此,EvolveR设计了一套复合奖励函数,将“做对事”(结果正确)和“会做事”(过程合理)区分开来考核:

图片

  • 结果奖励:基于最终答案与标准答案的匹配度进行计算。
  • 格式奖励
    • 思考步数奖励:鼓励智能体进行适度深度的推理,但同时防止其陷入“无限反思”的循环,强制其学会在思考充分后及时采取行动。
    • 搜索多样性奖励:明确激励智能体同时调用内部经验和外部知识,进行综合判断,避免偏废其一,实现经验与知识的协同。

通过这样的训练,模型学到的不仅仅是“正确答案是什么”,更重要的是——在什么具体情境下应该检索经验、应该优先检索哪些经验、以及如何将检索到的经验转化为有效的行动步骤。这使得EvolveR区别于传统的RAG(检索增强生成)或简单的记忆系统:RAG主要解决的是“知识缺失”问题,而EvolveR旨在解决更深层次的“经验缺失”与“经验应用”问题。

性能验证:在多跳问答任务上超越Search-R1等强基线模型

论文在7个复杂的问答基准数据集上对EvolveR进行了全面验证。无论是在Qwen2.5-3B还是7B参数规模的模型上,EvolveR都取得了最优的平均性能表现。

相较于思维链(CoT)、RAG、监督微调(SFT)、拒绝采样(Rejection Sampling)以及Search-R1等先进的基线方法,EvolveR展现出更强的整体性能与鲁棒性。尤其在需要多步推理的复杂多跳问答任务和领域外泛化任务上,其表现更为稳定和出色。

图片

研究还发现了一个关键现象:当模型规模较小时(如1B参数),借助GPT-4o-mini等更强的外部教师模型来帮助总结经验,效果更好;但当模型参数扩展到3B规模时,智能体自己总结出的经验原则,其实际效果反而超过了外部教师总结的原则。

这揭示了一个重要洞见:对智能体而言,最有效的经验未必来自最强的外部教师,而可能源于与自身策略最匹配的“自我经验”。作者将其解释为一种“认知对齐”——智能体通过自我蒸馏得到的经验原则,更贴合其自身的能力边界、推理习惯和知识表示,因此在实战中更容易被有效调用和执行。

这一发现对当前的智能体技能生态也具有深远启发:未来的智能体技能,可能不再全部依赖于人类工程师编写,将有相当一部分源自智能体自身在长期、大量执行任务过程中积累的轨迹与经验。

图片

从“工具扩展”到“经验进化”:智能体自主学习的未来

过去一年的智能体发展浪潮已经证明,只要赋予大语言模型适当的工具、权限和清晰的工作流,它就能完成越来越多真实世界的复杂任务。

但这同时也暴露了新的能力天花板:智能体的能力增长,不能永远依赖人类持续不断地编写技能、安装插件、调整提示词。正如LangChain等框架近期所指出的,智能体的持续学习不仅发生在模型权重微调层面,同样可以发生在任务编排和上下文记忆层面;而智能体与环境的交互轨迹,正是这些学习过程最核心的燃料。

EvolveR指出了一个更加自主和可持续的进化方向:让智能体将自身的成败实践转化为可复用、可进化的内部经验,再通过强化学习,将“如何智能地运用经验”内化为其核心决策策略的一部分。

从这个视角看,EvolveR不仅仅是一种先进的智能体记忆或学习方法,它更是面向后OpenClaw/Claude Code时代的一个关键问题探索:

当智能体拥有了强大的工具箱和基础能力之后,它能否开始为自己积累经验,实现真正的、内生的成长?

EvolveR的初步实验给出了肯定的答案。这或许是智能体从“能够执行任务”迈向“越执行越聪明”的关键一步,为构建具备终身学习能力的自主智能系统开辟了新的路径。

来源:https://www.51cto.com/article/843589.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
会译AI翻译工具:双语对照翻译软件使用指南

会译AI翻译工具:双语对照翻译软件使用指南

在信息全球化的今天,跨越语言障碍获取内容已成为一种常态需求。一款得力的翻译工具,往往能成为我们探索世界的“隐形翅膀”。今天,我们就来深入了解一下会译AI这款工具,看看它能如何融入我们的数字生活。 会译AI使用场景: 会译AI的应用范围相当广泛,几乎覆盖了从学习到工作的多个层面: 阅读外文新闻:让你快

时间:2026-05-19 14:12
沉浸式翻译工具优雅体验轻松愉悦的跨语言阅读

沉浸式翻译工具优雅体验轻松愉悦的跨语言阅读

在信息全球化的时代,高效获取外文资料是许多人的刚需。无论是浏览英文网站、阅读PDF文档还是查阅电子书,一款优秀的AI翻译工具都能显著提升效率。本文将深入介绍一款专注于优化阅读体验的翻译利器——沉浸式翻译插件,并分析其如何帮助用户打破语言障碍。 沉浸式翻译是什么 沉浸式翻译是一款基于人工智能技术的双语

时间:2026-05-19 14:12
阿里翻译支持214种语言互译 覆盖全球多语种翻译需求

阿里翻译支持214种语言互译 覆盖全球多语种翻译需求

在全球化业务拓展与跨语言协作日益频繁的当下,一个高效精准的智能翻译平台已成为企业及个人突破语言障碍的核心工具。阿里翻译,正是阿里巴巴集团为应对这一需求而推出的专业级多语言解决方案。 阿里翻译是什么 阿里翻译是阿里巴巴提供的覆盖多领域、多语种的在线机器翻译服务。它不仅是一个基础的文本转换工具,更是深度

时间:2026-05-19 14:12
有道翻译好用吗用户真实评价与使用体验分享

有道翻译好用吗用户真实评价与使用体验分享

在语言学习、跨国协作或日常信息获取中,我们常常会遇到需要快速翻译的场景。这时,一个可靠且功能全面的翻译工具就显得尤为重要。今天要详细介绍的,就是广受用户好评的有道翻译,它如何成为高效的语言转换助手。 有道翻译是什么 有道翻译是网易旗下集文本翻译、文档翻译、网页翻译及在线即时互译于一体的综合语言服务平

时间:2026-05-19 14:12
Windsurf AI代码编辑器:专为开发者设计的高效编程工具

Windsurf AI代码编辑器:专为开发者设计的高效编程工具

Windsurf是什么 在当前的软件开发领域,AI编程助手已成为提升生产力的关键工具。然而,不同工具的实际体验差异显著。Windsurf作为一款新兴的AI代码辅助工具,正凭借其出色的上下文理解能力和流畅的集成体验,在开发者社区中获得广泛好评。它深度融合了智能代码补全、自然语言转代码、错误诊断与修复、

时间:2026-05-19 14:12
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程