当前位置: 首页
AI资讯
谷歌180组实验揭示Scaling Law,颠覆传统模型炼金术

谷歌180组实验揭示Scaling Law,颠覆传统模型炼金术

热心网友 时间:2025-12-12
转载




机器之心报道

编辑:Panda

智能体(Agent),即基于语言模型且具备推理、规划和行动能力的系统,正在成为现实世界 AI 应用的主导范式。

尽管其已被广泛采用,但决定其性能的原则仍未被充分探索,导致从业者只能依赖启发式经验,而非有原理依托的设计选择。

现在,谷歌的一篇新论文填补了这一空白!

他们通过大量实验找到了智能体的 Scaling Law,只不过他们将其称为quantitative scaling principles,即定量扩展原则。



论文标题:Towards a Science of Scaling Agent Systems论文地址:https://arxiv.org/abs/2512.08296

具体来说,他们将这种扩展定义为智能体数量、协作结构、模型能力和任务属性之间的相互作用。

他们在四个不同的基准测试中对此进行了评估:Finance-Agent(金融推理)、BrowseComp-Plus(网络导航)、PlanCraft(游戏规划)和 Workbench(工作流执行)。



利用五种典型的智能体架构(单智能体系统以及四种多智能体系统:独立型、中心化、去中心化、混合型),并在三个 LLM 家族(OpenAI, Google, Anthropic)中进行实例化,谷歌这个团队对 180 种配置进行了受控评估,标准化了工具、提示结构和 token 预算,以将架构效应从实施混杂因素中隔离出来。



他们使用经验性的协作指标(包括效率、开销、错误放大和冗余)推导出了一个预测模型,该模型实现了交叉验证 R²=0.513,通过对任务属性建模而非过度拟合特定数据集,实现了对未见任务领域的预测。

是的,智能体的 Scaling Law 找到了!并且准确度还相当高,谷歌表示:「我们的框架在预测保留任务的最佳架构方面实现了 87% 的准确率。」这样一来,智能体的部署决策将第一次获得强有力的原则支撑。



实验与结果:打破「人多力量大」的迷思

为了找到这套定量原则,谷歌团队没有仅仅停留在理论推导,而是进行了一场堪称暴力穷举的实证研究。

他们动用了三大模型家族(Google Gemini、OpenAI GPT、Anthropic Claude),在金融、网购、游戏规划等不同场景下进行了 180 组受控实验。

实验结果不仅令人意外,甚至颠覆了许多开发者的直觉。简单来说,他们发现了一些规律。

任务决定成败:有的场景是神助攻,有的是猪队友

过去人们常说「三个臭皮匠,顶个诸葛亮」,但这篇论文告诉我们:这完全取决于你们在干什么任务。



红榜(适合组团): 在金融分析(Finance-Agent)这类任务中,多智能体协作是大杀器。中心化架构(有一个「指挥官」分派任务)能让性能暴涨 80.9%。为什么?因为这类任务可以拆分 —— 你查财报,我算汇率,他做总结,大家并行工作,效率极高。

黑榜(切忌组团): 在游戏规划(PlanCraft)这类任务中,所有多智能体架构都翻车了,性能惨跌 39% 到 70%。原因在于这类任务环环相扣(必须先砍树,才能做木板),强行把流程拆给不同的人,光是沟通成本就把推理能力消耗殆尽了。

三大隐形杀手:什么在阻碍智能体变强?

通过对数据的深度挖掘,谷歌团队量化了阻碍智能体扩展的三大核心因素:

第一,工具越多,协作越难(工具-协作权衡)

如果任务需要用到大量工具(比如 16 个以上的 API),再引入多智能体协作就是一场灾难。实验数据显示,工具密集的任务会因巨大的沟通开销而不仅没变快,反而变慢、变笨。

第二,能力有天花板(能力饱和效应)

这是最反直觉的一点:如果单个智能体已经够聪明了,就别再给它找帮手了。 数据表明,当单智能体的基线准确率超过 45% 时,再增加智能体进行协作,收益往往是负的。所谓「帮倒忙」,在 AI 世界里是真实存在的。

第三,没有指挥官,错误会指数级放大

如果你让一群智能体各自为战(独立型架构),错误会被放大 17.2 倍 —— 因为没人检查,一个人的错会传给所有人。但如果引入一个「指挥官」进行中心化管理,错误放大率能被控制在 4.4 倍。这证明了在多智能体系统中,架构设计比单纯堆人数更重要。

模型性格测试:谁是最佳指挥官?

除了任务和架构,论文还发现了一个有趣的现象:不同厂商的模型有不同的协作性格。在选择团队成员时,你不能只看智商(IQ),还要看它们合不合群。

Google Gemini:擅长「层级管理」的执行官。Gemini 模型在中心化架构下表现出了惊人的适应性。在金融任务中,Gemini 的中心化协作带来了 +164.3% 的恐怖提升。数据表明,它最听指挥,执行力最强,且在不同架构下的性价比最为平衡。

OpenAI GPT:擅长「复杂沟通」的交际花。GPT 系列在混合型架构(Hybrid)中表现最佳 。虽然混合架构的沟通成本很高,但 GPT 似乎拥有独特的「通信协同效应」(Communication Synergy),能驾驭复杂的交互网络,不仅能听指挥,还能搞定同级之间的横向沟通 。

Anthropic Claude:稳健但敏感的保守派。Claude 对协作开销非常敏感,一旦沟通太复杂,成本就会飙升(每提升 1% 性能的成本是 Google 的 2 倍)。因此,它最适合简单直接的中心化架构,表现最稳(方差最小)。更有趣的是,它是唯一一个在「弱指挥官带强兵」(异构混合)模式下还能提升性能的模型,展现出了独特的容错性



结果:这就是我们要找的「预测公式」

最终,基于上述发现,谷歌推导出了一个预测模型。这个模型不依赖玄学,而是基于效率、开销、错误放大率等硬指标。





它的威力如何?在预测完全没见过的任务配置时,这套理论能以 87% 的准确率告诉你:对于当前的任务和模型,到底该用单打独斗,还是团队协作,亦或是某种特定的组队方式。

这标志着智能体系统设计正式告别了「炼金术」时代,进入了可计算、可预测的「化学」时代。

更多详情请访问原论文。

来源:https://www.163.com/dy/article/KGIPSMTJ0511AQHO.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
企业级龙虾适配终端全解析 多场景部署架构详解

企业级龙虾适配终端全解析 多场景部署架构详解

当前,大模型技术正以惊人的速度迭代升级,企业级智能体(AI Agent)的应用边界已从初期的对话交互,全面拓展至业务执行与决策的深层领域。行业分析预测,到2025年,全球将有超过60%的领先企业部署能够实现多智能体协同工作的数字员工。对于企业管理者而言,关注焦点已从“智能体能聊什么”转向更实际的问题

时间:2026-05-23 14:28
1688店铺数据自动采集方法与企业级抓取方案详解

1688店铺数据自动采集方法与企业级抓取方案详解

在电商行业迈入存量竞争的时代,供应链的精细化运营与市场反应的敏捷性,已成为企业生存与发展的关键。作为全球领先的采购批发平台,1688汇聚了海量的供应商资源、商品信息与交易数据。对于电商卖家、贸易商及市场分析师而言,如何高效、自动化地获取这些店铺数据,已不仅是技术问题,更是关乎选品策略、价格竞争与供应

时间:2026-05-23 14:28
智能问答系统核心技术组件解析与架构设计

智能问答系统核心技术组件解析与架构设计

在当今企业数字化转型的浪潮中,一个关键趋势日益清晰:传统的关键词匹配式知识库已难以满足业务需求。驱动现代企业高效运转的核心,正转向那些具备深度语义理解与逻辑推理能力的下一代智能问答系统。然而,许多人可能没有意识到,一个真正强大、可靠的智能问答系统,其核心价值远不止于前台流畅的对话界面。它的底层,实际

时间:2026-05-23 14:27
实在取数宝数据采集准确率评测与电商应用解析

实在取数宝数据采集准确率评测与电商应用解析

在数字化转型的关键阶段,数据已成为驱动企业决策与增长的核心引擎。对于电商、零售及跨境行业而言,数据采集的“准确率”问题,长期影响着运营效率与商业洞察的可靠性。那么,备受市场关注的实在取数宝,其数据准确率究竟能达到什么水平?简单来说,通过融合AI智能体与自动化技术,它能将数据采集的时效达标率与准确率稳

时间:2026-05-23 14:27
钉钉AI员工悟空亮相成都 助力企业组织智能化转型

钉钉AI员工悟空亮相成都 助力企业组织智能化转型

钉钉在成都峰会上推出全球首个企业级AI原生平台“悟空”,标志着AI从辅助工具升级为能独立执行复杂任务的智能伙伴。该平台具备自主执行、场景联动和人人可用三大核心能力,可自动处理跨系统任务并打通数据孤岛。现场演示了AI会议纪要生成功能,并与多家企业签约,推动智能制造、跨境电商。

时间:2026-05-23 14:27
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程