首页科技资讯软件教程游戏攻略手机游戏

首页

AI

Meta新研究：AI Agent发展方向将从刷榜转向中训练注：63个字符，保持核心技术词汇前置，突出研究差异点，避免过度营销词，符合专业文献标题风格

Meta新研究：AI Agent发展方向将从刷榜转向中训练注：63个字符，保持核心技术词汇前置，突出研究差异点，避免过度营销词，符合专业文献标题风格

热心网友

转载

2025-10-14

来源:https://36kr.com/p/3507275210022022

2025年，AI竞争的焦点正经历本质性变革——从单纯的基准测试比拼转向Agent的实际任务完成能力。xAI与Anthropic等行业巨头发布新品时，都不约而同强调同一关键能力：自主完成复杂长流程任务。

这折射出一个清晰共识：通用Agent能力将成为AI领域的下一块高地。

但现实远比理想残酷。

除编程领域外，Agent的实际落地应用屈指可数。核心瓶颈之一在于反馈机制的困境：预训练模型要蜕变为强大Agent，必须通过与真实环境交互获得反馈。遗憾的是，现有反馈机制要么效果有限，要么成本高昂。

2025年10月，Meta等机构发表的论文《Agent Learning via Early Experience》提出中间路线——"中训练"范式，试图以经济高效的反馈形式，为Agent发展搭建关键桥梁。(论文链接：https://arxiv.org/abs/2510.08558)

01 反馈机制的双重困境

在探讨Meta的解决方案前，我们有必要了解当前Agent训练面临的两大核心挑战。主流训练方法各有其难以逾越的局限。

AI训练方法对比图

第一种方法是模仿学习(SFT)，依赖"高成本的静态反馈"。这种方法要求Agent像学生背诵范文一样，模仿人类专家的操作示范。

高质量专家数据本就难以大规模采集，更致命的是其能力的局限性：静态反馈仅告诉模型"应该怎么做"，却无法传达"不这样做的后果"。这一缺陷导致Agent在遇到训练数据外的情况时极度脆弱，难以适应环境变化。

第二条路是强化学习(RL)，依赖"复杂的动态反馈"。Agent通过环境奖励信号进行试错学习。虽然可以无限探索，但由于依赖清晰的奖励信号，在实际应用中往往效率低下。

现实世界的复杂任务（如网页浏览、多步骤工具使用）往往缺乏明确即时的奖励信号。在多步骤任务中，奖励可能延迟到操作序列最末端才出现，甚至模糊不清。这种"功劳分配"难题使得训练过程极不稳定。

目前语言Agent环境普遍缺乏支持大规模RL训练的基础设施，包括可靠的模拟器、标准化重置机制和可扩展评估平台。这导致RL应用严重依赖精心设计的奖励函数。

结果形成了两难困境：简单的训练不够强大，强大的训练难以应用。

02 "中训练"范式的突破

Meta的工作提出了名为"早期经验"的创新方案：让Agent从自身探索中获得学习信号。

这一方法基于一个深刻洞见：Agent自主探索产生的环境状态变化，本身就是宝贵的学习资源。

举个例子，训练Agent预订机票时，传统模仿学习只会展示成功案例。而"早期经验"会鼓励Agent自主尝试：输入错误日期会怎样？填写错误证件号码会产生什么结果？每次尝试后，Agent可以观察系统反馈——提示信息、页面跳转、表单状态变化等。

研究者设计了两种具体训练策略：隐式世界建模和自我反思。

训练策略示意图

隐式世界建模(IWM)的核心是训练Agent预测"行为会产生什么结果"。具体流程包括：

自主探索：在每个示范状态下，生成多种备选动作；

记录数据：真实执行这些动作并记录环境响应；

训练预测：让模型学会基于"当前状态+动作"预测"未来状态"。

隐式世界建模流程图

自我反思(SR)则让Agent学会解释"为什么专家示范最优"。步骤包括：

对比分析：同时观察专家动作和自主尝试结果；

生成反思：通过大型语言模型分析专家选择的合理性；

训练决策：让Agent先进行反思推理，再输出正确动作。

自我反思Prompt示例

实验结果显示：

实验结果数据图

• 平均成功率比传统模仿学习提升9.6%

• 新任务表现提升9.4%

• 为强化学习提供更好的初始化表现

03 中训练的理论基础

Google DeepMind的最新研究证明，优秀Agent必须拥有精确的"世界模型"。"早期经验"的成功在于让Agent建立起对环境的因果理解。

世界模型理论图示

这一成果凸显了三段式训练范式的价值：

第一阶段(预训练)：获取语言和知识基础

第二阶段(中训练)：构建世界运行规律认知

第三阶段(后训练)：优化具体任务策略

04 参数效率的飞跃

"早期经验"展示了参数优化的新可能。通过深度递归训练，700M参数的小模型在某些任务上超越了大十几倍的模型。

这表明传统扩展模式的边际效益递减。而深度递归训练这类方法，可能开创Test Time Compute的新Scaling Law。

论文地址：[2510.08558] Agent Learning via Early Experience

上一篇：AI算力爆发推高铜铝需求，液冷技术重塑资源格局

下一篇：海尔阿里联手布局AI，推动产业创新升级

免责声明

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章

通义千问、携程AI、豆包三大旅行助手横向评测

随着人工智能技术不断渗透至旅游行业，2025年国庆假期成为检验AI旅行助手实战能力的关键节点。从行程规划到应急处理，从个性化推荐到预算控制，这些基于大模型技术的智能工具正以全新姿态重塑传统旅行服务模

2025-10-14.

ABB与英伟达联手布局800VDC架构，推动AI算力能源革新

当英伟达宣布与工业电力巨头ABB达成战略合作时，全球AI基础设施领域迎来了一场关键变革。这场聚焦千兆瓦级数据中心的合作，核心目标是为英伟达800VDC高压直流架构开发定制化电力解决方案。表面看是电力

2025-10-14.

IBM携手Anthropic集成Claude模型，加速企业AI应用开发

IBM与人工智能研究机构Anthropic近日达成一项重要合作，双方将共同推动企业级人工智能解决方案的开发与应用。根据协议，Anthropic旗下的Claude系列大语言模型将被整合至IBM的软件产

2025-10-14.

苹果欧洲五国推清洁能源，助力iPhone等设备使用绿电

苹果公司近日宣布，将在欧洲五国——希腊、意大利、拉脱维亚、波兰和罗马尼亚——启动一系列可再生能源项目，以扩大清洁能源的供应。根据计划，这些项目将在未来数年内为欧洲电网新增650兆瓦的可再生能源装机容

2025-10-14.

人工智能ETF融资净卖出298万，余额减少3.72%

科创板人工智能ETF（588930）在10月13日的交易中，融资活动出现显著变化。据公开信息显示，该ETF当日融资买入金额为444 19万元，而融资偿还金额则达到741 72万元，导致融资净卖出29

2025-10-14.

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

热门推荐

《使徒选择指南：嘟嘟脸恶作剧阵容搭配技巧》 15款热门嘟嘟脸恶作剧神器盘点嘟嘟脸恶作剧角色全解析：强度分析与实战表现平民阵容如何搭配？不朽箴言低成本最强攻略地下城堡4墓穴704-715层通关打法全解析红桃弓起源与特色解析：不朽箴言的传奇角色地下城堡4墓穴730通关阵容推荐地下城堡4墓穴695通关攻略：最佳阵容组合及打法技巧《地下城堡4》沙丘之月评测：是否值得重点培养《女神异闻录夜幕魅影》YUI幻彩饰品评测与搭配攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

打卡机流钓鱼攻略：从零学会高效构筑，轻松拿满奖励

打卡机流钓鱼攻略：从零学会高效构筑，轻松拿满奖励发布于 2025-10-14

刀剑神魔录召唤流配队攻略：高效召唤支援阵容搭配方案

刀剑神魔录召唤流配队攻略：高效召唤支援阵容搭配方案发布于 2025-10-14

炉石传说云阙茶壶DK卡组代码：2024最新强力构筑

炉石传说云阙茶壶DK卡组代码：2024最新强力构筑发布于 2025-10-14

无悔华夏花木兰强度解析：技能搭配与实战攻略

无悔华夏花木兰强度解析：技能搭配与实战攻略发布于 2025-10-14

多重人生流程视频：探索不同人生选择的虚实体验过程

多重人生流程视频：探索不同人生选择的虚实体验过程发布于 2025-10-14

《黑神话》WeGame与Epic平台更新发布，Steam版即将同步更新

《黑神话》WeGame与Epic平台更新发布，Steam版即将同步更新发布于 2025-10-14

伊藤润二恐怖游戏：美女被困诡异洋楼惊悚逃生

伊藤润二恐怖游戏：美女被困诡异洋楼惊悚逃生发布于 2025-10-14

欧美玩家错失的PS1经典：吉田修平坦言日本独占佳作

欧美玩家错失的PS1经典：吉田修平坦言日本独占佳作发布于 2025-10-14

张艺谋操刀！《王者荣耀》女娲三星堆皮肤免费获取攻略

张艺谋操刀！《王者荣耀》女娲三星堆皮肤免费获取攻略发布于 2025-10-14

《战地风云 6》——终极全面战争体验今日推出战斗现已在 PlayStation 5、PC 和 Xbox 上打响

《战地风云 6》——终极全面战争体验今日推出战斗现已在 PlayStation 5、PC 和 Xbox 上打响发布于 2025-10-14

iPhone 17 Pro双摄同步录制：前后相机可同时拍摄视频

iPhone 17 Pro双摄同步录制：前后相机可同时拍摄视频发布于 2025-10-14

iOS 26.1 Beta 3实测体验，爱思助手详细评测来了

iOS 26.1 Beta 3实测体验，爱思助手详细评测来了发布于 2025-10-14

iOS 26.1 beta 3发布：新功能体验与升级指南

iOS 26.1 beta 3发布：新功能体验与升级指南发布于 2025-10-14

工信部：即日起全国开通eSIM手机业务线上预约

工信部：即日起全国开通eSIM手机业务线上预约发布于 2025-10-14

神经科学家指控苹果AI训练侵权盗版书籍纠纷再起

神经科学家指控苹果AI训练侵权盗版书籍纠纷再起发布于 2025-10-14

Windows热补丁更新量骤降九成，每年仅需4次重启

Windows热补丁更新量骤降九成，每年仅需4次重启发布于 2025-10-14

大容量SSD加速替代HDD，NAND厂商布局AI存储新机遇

大容量SSD加速替代HDD，NAND厂商布局AI存储新机遇发布于 2025-10-14

NVIDIA DGX Spark发货：全球最便宜AI超算，2.85万元起售

NVIDIA DGX Spark发货：全球最便宜AI超算，2.85万元起售发布于 2025-10-14

Win11恢复功能开启指南：5分钟搞定系统快速还原

Win11恢复功能开启指南：5分钟搞定系统快速还原发布于 2025-10-14

我国新型芯片突破：算力超顶级GPU千倍，首解世纪难题

我国新型芯片突破：算力超顶级GPU千倍，首解世纪难题发布于 2025-10-14

最新下载

nejisimsara2

nejisimsara2 休闲益智 2025-10-14更新

查看

魔天记3D变态

魔天记3D变态角色扮演 2025-10-14更新

查看

花千骨小米

花千骨小米角色扮演 2025-10-14更新

查看

同盟神探手游

同盟神探手游角色扮演 2025-10-14更新

查看

暴打魏蜀吴九游

暴打魏蜀吴九游棋牌策略 2025-10-14更新

查看

永暮幻想

永暮幻想卡牌桌游 2025-10-14更新

查看

精灵大夜战九游

精灵大夜战九游休闲益智 2025-10-14更新

查看

零号任务国际

零号任务国际飞行射击 2025-10-14更新

查看

王者光辉百度

王者光辉百度角色扮演 2025-10-14更新

查看

命运战歌vivo

命运战歌vivo 棋牌策略 2025-10-14更新

查看

热门话题

魔术游戏鸣人的假期刀塔传奇饥荒拉布布游戏洛克王国神魔幻想思美人疯狂越野