「微调已死」再添筹码,谷歌扩展AI自我进化范式,成功经验与失败教训双向学习
这几天,关于「微调已死」的言论吸引了学术圈的广泛关注。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
一篇来自斯坦福大学、SambaNova、UC 伯克利的论文提出了一种名为Agentic Context Engineering(智能体 / 主动式上下文工程)的技术,让语言模型无需微调也能实现自我提升!
其实,在更早的时候,谷歌一篇名为《ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory》的论文提出了一个与 Agentic Context Engineering 类似的概念 ——ReasoningBank,用于智能体系统的创新记忆框架,从智能体自身判断的成功和失败经验中提炼并组织记忆项,无需真实标签。
如图 1 所示,利用ReasoningBank不仅可以捕捉成功中的有效策略,还能从失败中提取重要的预防教训,将这些内容抽象成一系列可操作的原则。这个过程在一个闭环中运行:当面对新任务时,智能体从 ReasoningBank 中检索相关记忆来指导其行动。随后,新的经验被分析、提炼并重新整合回 ReasoningBank,使得智能体能够不断进化并提升其战略能力。

通过将 ReasoningBank 作为强大的经验学习者,谷歌研究了经验扩展,以建立记忆与测试时扩展之间的强大协同效应。谷歌并不通过增加更多任务来扩展经验的广度,而是通过深入探索每个单一任务来扩展经验的深度。
此外,谷歌引入了记忆感知的测试时扩展(MaTTS),在并行和顺序设置下都进行了应用,通过生成多样的探索来提供对比信号,使 ReasoningBank 能够合成更具普遍性的记忆。
最终,在记忆与测试时扩展之间实现了协同效应:高质量的记忆将扩展引导到更有前景的路径,而丰富的经验则进一步锤炼出更强的记忆。这种正反馈循环使得基于记忆的经验扩展成为智能体的一个新扩展维度。

论文地址:https://arxiv.org/pdf/2509.25140
对于谷歌开发的这种能实时从自身错误中学习的 AI,网友纷纷看好。

方法概览
下图为 ReasoningBank 整体框架,其中经验被提炼成结构化的记忆项,包含标题、描述和内容。对于每个新任务,智能体从中检索相关项与环境进行互动,并从成功和失败的轨迹中构建新的记忆项。这些记忆项随后被整合到 ReasoningBank 中,形成一个闭环的记忆过程。

其中,ReasoningBank 包含了以下几个关键组件:
记忆结构。ReasoningBank 中的记忆项是从过去的经验中设计和提炼出的结构化知识单元,它们抽象了低级执行细节,同时保留了可转移的推理模式和策略。每个记忆项包含三个部分:(i) 标题,作为简洁的标识符,总结核心策略或推理模式;(ii) 描述,提供记忆项的简短一句话总结;(iii) 内容,记录从过去经验中提炼出的推理步骤、决策理由或操作见解。提取出的记忆项既具有人类可理解性,又具备机器可用性,有助于高效使用和与智能体的集成。
ReasoningBank 与智能体的集成。配备 ReasoningBank 的智能体可以从一个精心挑选的可转移策略池中汲取经验来指导决策。这使得智能体能够回忆有效的见解,避免以前观察到的陷阱,并更稳健地适应未见过的查询。集成过程分为三个步骤:(i) 记忆检索,(ii) 记忆构建,(iii) 记忆整合。
MaTTS:记忆感知的测试时扩展。ReasoningBank 与测试时扩展的直接结合如图 3 (a) 所示,其中更多的轨迹被独立地转换为更多的记忆项。不过,这种基础方法并不理想,因为它没有利用来自同一问题上冗余探索所产生的对比信号,这限制了测试时扩展所带来的性能优势。为此,谷歌提出了 MaTTS,它是测试时扩展与 ReasoningBank 的全新集成。与基础方法不同,MaTTS 刻意从扩展过程中生成的大量成功和失败轨迹中学习,以便更有效地策划记忆。谷歌为 MaTTS 设计了两种互补的实现方式:并行扩展和顺序扩展,如图 3 (b) 和 3 (c) 所示。

并行扩展。在并行设置中,谷歌在检索到的记忆项的指导下,为同一查询生成多个轨迹。通过对不同轨迹进行比较,智能体可以识别一致的推理模式,同时过滤掉虚假的解决方案。这个过程通过单一查询的多次试验促使多样化的探索,从而实现更可靠的记忆策划。
顺序扩展。在顺序扩展中,谷歌在初步完成后,迭代地在单一轨迹内完善推理,遵循自我精炼的原则。在这个过程中,自我精炼中生成的中间笔记也被用作宝贵的记忆信号,因为它们捕捉了推理尝试、修正和见解,这些内容可能不会出现在最终的解决方案中。
实验结果
谷歌在具有挑战性的基准测试上进行了广泛的实验,包括了网页浏览(WebArena、Mind2Web)和软件工程(SWE-Bench-Verified)任务。
表 1、2、3 分别展示了 ReasoningBank 在 WebArena、Mind2Web 和 SWE-Bench-Verified 上的评估结果,表明了在有效性(相对提高高达 34.2%)和效率(减少 16.0% 的交互步骤)上均优于基准方法。



特别地,ReasoningBank 与 MaTTS 的协同效果最好,使其成为基于记忆的经验扩展的关键组成部分。谷歌在 Webarena-Shopping 子集上实验了 MaTTS 与 Gemini-2.5-flash 的结合。默认下,MaTTS 集成了 ReasoningBank,但它也可以使用其他记忆机制。
为了研究整体的扩展效果,谷歌进行了以下基准测试:(i) 没有记忆机制的 MaTTS(MaTTS w/o memory),这代表了没有记忆机制的扩展设置;(ii) 没有聚合的 MaTTS(MaTTS w/o aggregation);(iii) MaTTS,用于展示与扩展因子 k 相关的效果。值得注意的是,k = 1 是没有扩展的设置。
结果如图 4 所示,表明并行扩展和顺序扩展都能提升性能。

更多实验结果请参阅原论文。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
追觅宣布进军天文领域 构建“空天地一体化”生态
“我们的代码,终将写入繁星”:追觅科技成立天文BU,构建从地面到太空的生态闭环 “我们的代码,终将写入繁星。”这句来自追觅科技的宣言,不只是一句诗意的口号,更是一份清晰的战略升级路线图。就在9月10日,这家中国科技企业正式宣告成立天文业务单元(BU),由此完成了一次至关重要的战略跃迁。这标志着其“全
人类发现已知最大黑洞,质量达到太阳363亿倍!
天文学新纪录:观测到质量达太阳363亿倍的“极限”黑洞 最近的天文学界传来一个重磅消息。在距离我们大约50亿光年之外,一个代号为SDSS J1148+1930的星系中心,科学家们确认了一个庞然大物的存在——一个质量约为太阳363亿倍的超级黑洞。这个数字,直接刷新了人类已知黑洞的质量观测纪录。 你可能
下调降至150万颗!HBM4验证延迟拖累英伟达Rubin GPU量产
英伟达Rubin GPU量产进度调整,HBM4验证成关键变量 最近供应链传来消息,英伟达备受瞩目的下一代Rubin GPU,量产节奏可能要比预期慢上半拍。根据最新信息,其生产目标已从原先的200万颗下调至150万颗左右。这背后,下一代高带宽内存HBM4的验证进度,成了眼下最主要的制约因素。 产能布局
天问二号传回首幅地月合影 59万千米外定格为地球月球拍照
天问二号传回地月同框影像,深空探测新阶段迈出坚实一步 7月1日,国家航天局发布了一组颇具深意的影像——天问二号探测器在深邃的太空背景中捕捉到的地月同框画面。这组图像并非普通照片,而是由探测器上高精度的窄视场导航敏感器所拍摄,拍摄时机选在了探测器与地球、与月球距离均约59万千米的特殊位置上。经过科研团
外媒:近4000名NASA员工提交离职申请
近4000名NASA员工提交离职申请,占比高达两成 最近科技圈有个消息挺轰动,据外媒报道,美国国家航空航天局内部正经历一场不小的人事地震:有近4000名员工提交了离职申请。算下来,这差不多占了NASA员工总数的五分之一。 关于具体的裁员规模,美国宇航局发言人谢丽尔·华纳在官方声明里给出了更详细的数字
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

