当前位置: 首页
AI
Meta新研究:AI Agent发展方向将从刷榜转向中训练 注:63个字符,保持核心技术词汇前置,突出研究差异点,避免过度营销词,符合专业文献标题风格

Meta新研究:AI Agent发展方向将从刷榜转向中训练 注:63个字符,保持核心技术词汇前置,突出研究差异点,避免过度营销词,符合专业文献标题风格

热心网友 时间:2025-10-14
转载

2025年,AI竞争的焦点正经历本质性变革——从单纯的基准测试比拼转向Agent的实际任务完成能力。xAI与Anthropic等行业巨头发布新品时,都不约而同强调同一关键能力:自主完成复杂长流程任务。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这折射出一个清晰共识:通用Agent能力将成为AI领域的下一块高地。

但现实远比理想残酷。

除编程领域外,Agent的实际落地应用屈指可数。核心瓶颈之一在于反馈机制的困境:预训练模型要蜕变为强大Agent,必须通过与真实环境交互获得反馈。遗憾的是,现有反馈机制要么效果有限,要么成本高昂。

2025年10月,Meta等机构发表的论文《Agent Learning via Early Experience》提出中间路线——"中训练"范式,试图以经济高效的反馈形式,为Agent发展搭建关键桥梁。(论文链接:https://arxiv.org/abs/2510.08558)

01 反馈机制的双重困境

在探讨Meta的解决方案前,我们有必要了解当前Agent训练面临的两大核心挑战。主流训练方法各有其难以逾越的局限。

AI训练方法对比图

第一种方法是模仿学习(SFT),依赖"高成本的静态反馈"。这种方法要求Agent像学生背诵范文一样,模仿人类专家的操作示范。

高质量专家数据本就难以大规模采集,更致命的是其能力的局限性:静态反馈仅告诉模型"应该怎么做",却无法传达"不这样做的后果"。这一缺陷导致Agent在遇到训练数据外的情况时极度脆弱,难以适应环境变化。

第二条路是强化学习(RL),依赖"复杂的动态反馈"。Agent通过环境奖励信号进行试错学习。虽然可以无限探索,但由于依赖清晰的奖励信号,在实际应用中往往效率低下。

现实世界的复杂任务(如网页浏览、多步骤工具使用)往往缺乏明确即时的奖励信号。在多步骤任务中,奖励可能延迟到操作序列最末端才出现,甚至模糊不清。这种"功劳分配"难题使得训练过程极不稳定。

目前语言Agent环境普遍缺乏支持大规模RL训练的基础设施,包括可靠的模拟器、标准化重置机制和可扩展评估平台。这导致RL应用严重依赖精心设计的奖励函数。

结果形成了两难困境:简单的训练不够强大,强大的训练难以应用。

02 "中训练"范式的突破

Meta的工作提出了名为"早期经验"的创新方案:让Agent从自身探索中获得学习信号。

这一方法基于一个深刻洞见:Agent自主探索产生的环境状态变化,本身就是宝贵的学习资源。

举个例子,训练Agent预订机票时,传统模仿学习只会展示成功案例。而"早期经验"会鼓励Agent自主尝试:输入错误日期会怎样?填写错误证件号码会产生什么结果?每次尝试后,Agent可以观察系统反馈——提示信息、页面跳转、表单状态变化等。

研究者设计了两种具体训练策略:隐式世界建模和自我反思。

训练策略示意图

隐式世界建模(IWM)的核心是训练Agent预测"行为会产生什么结果"。具体流程包括:

自主探索:在每个示范状态下,生成多种备选动作;

记录数据:真实执行这些动作并记录环境响应;

训练预测:让模型学会基于"当前状态+动作"预测"未来状态"。

隐式世界建模流程图

自我反思(SR)则让Agent学会解释"为什么专家示范最优"。步骤包括:

对比分析:同时观察专家动作和自主尝试结果;

生成反思:通过大型语言模型分析专家选择的合理性;

训练决策:让Agent先进行反思推理,再输出正确动作。

自我反思Prompt示例

实验结果显示:

实验结果数据图

• 平均成功率比传统模仿学习提升9.6%

• 新任务表现提升9.4%

• 为强化学习提供更好的初始化表现

03 中训练的理论基础

Google DeepMind的最新研究证明,优秀Agent必须拥有精确的"世界模型"。"早期经验"的成功在于让Agent建立起对环境的因果理解。

世界模型理论图示

这一成果凸显了三段式训练范式的价值:

第一阶段(预训练):获取语言和知识基础

第二阶段(中训练):构建世界运行规律认知

第三阶段(后训练):优化具体任务策略

04 参数效率的飞跃

"早期经验"展示了参数优化的新可能。通过深度递归训练,700M参数的小模型在某些任务上超越了大十几倍的模型。

这表明传统扩展模式的边际效益递减。而深度递归训练这类方法,可能开创Test Time Compute的新Scaling Law。

论文地址:[2510.08558] Agent Learning via Early Experience

来源:https://36kr.com/p/3507275210022022

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
2026年AI编程工具对比:谁最值得用?

2026年AI编程工具对比:谁最值得用?

全球主流AI编程工具横评:如何根据你的需求与水平做选择? 在AI编程工具这个赛道上,不同产品的定位和上手难度差异巨大。今天,我们就来盘一盘市面上几款主流的工具,你可以根据自身的预算和技术栈,找到最适合自己的那一款。 1 Claude Code (CC):能力顶尖,门槛也最高 提到AI编程,Clau

时间:2026-04-27 14:44
京津冀携手共进!智能网联新能源汽车生态港车展绽放新光彩

京津冀携手共进!智能网联新能源汽车生态港车展绽放新光彩

在正在顺义举办的第十九届北京国际汽车展览会上,京津冀智能网联新能源汽车科技生态港主题展区成为全场瞩目的焦点 这个面积达700平方米的展区,以六大功能区的联动展示,汇聚了百余家企业的创新成果,生动呈现了京津冀三地汽车产业链协同发展的丰硕成果。 整个展区以“链群同心、澎湃生机、携手共进、生态共创、未来同

时间:2026-04-27 14:43
2秒钟转写5分钟音频!国产新语音模型拿下多项SOTA,定价骤减90%

2秒钟转写5分钟音频!国产新语音模型拿下多项SOTA,定价骤减90%

阶跃星辰发布StepAudio 2 5 ASR:推理提速400%,长音频处理迎来新突破 4月24日,阶跃星辰正式推出了新一代自动语音识别模型StepAudio 2 5 ASR。这款模型主要瞄准语音转写与长音频处理场景,在架构上玩了个新花样——引入了Multi-Token Prediction(多To

时间:2026-04-27 14:43
火山引擎北京车展推新一代汽车AI方案 豆包大模型赋能超700万智能汽车

火山引擎北京车展推新一代汽车AI方案 豆包大模型赋能超700万智能汽车

在北京车展首日,火山引擎正式推出基于Agentic AI架构的新一代汽车AI解决方案 车展首日,一个重磅消息传来:火山引擎正式发布了基于Agentic AI架构的新一代汽车AI解决方案。这套方案包含两大核心模块——AI座舱套件方案与豆包座舱助手方案。其真正的突破性在于,它构建了行业首个全链路端到端的

时间:2026-04-27 14:43
RAG 架构的深水区:为什么企业级多模态方案必须对图片“看两次”?

RAG 架构的深水区:为什么企业级多模态方案必须对图片“看两次”?

多模态RAG的深度重构:从“暴力提取”到“两次审视”的工程跃迁 在当前的LLM技术栈中,多模态能力正经历一场静默但深刻的变革:它正从一个可选的“插件”,演变为系统的“原生核心”。早期的处理思路,往往将图片视为一种单向的转换工具——简单地将像素转化为文本描述。然而,在复杂的业务场景下,这种粗暴的“降维

时间:2026-04-27 14:43
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程