当前位置: 首页
科技数码
加州大学圣地亚哥分校研究发现大模型具备自主调用工具能力

加州大学圣地亚哥分校研究发现大模型具备自主调用工具能力

热心网友 时间:2026-05-20
转载


想象一下,你雇佣了一位助理,结果发现他连“今天是几号”这种简单问题都要打开日历App确认,甚至跑去图书馆查资料——你肯定会觉得,这位助理是不是过度依赖工具了?

如今,配备了搜索引擎、计算器和代码执行器等外部工具的大型语言模型,正面临同样的困境。它们似乎养成了一种习惯:无论任务简单还是复杂,都倾向于调用工具,哪怕自身能力足以直接解答。关键在于,每次工具调用都意味着成本:向外部API发送请求会产生费用,同时也会带来延迟。当一次会话涉及数十个决策点时,这些不必要的调用会迅速累积成巨大的资源浪费。

那么,模型是真的无法判断何时该用工具,还是它内心其实明白,只是在“开口说话”时未能准确表达?这正是加州大学圣地亚哥分校与亚马逊AWS合作团队在2026年5月发布的一项预印本研究(arXiv:2605.09252)试图解答的核心问题。

研究团队系统性地完成了三项工作:构建了一个专门测试“工具调用决策”的评测基准,揭示了现有解决方案的局限性,并从模型的神经网络信号中找到了解决问题的关键线索,最终提出了一种极为轻量高效的干预方法。整个过程,如同侦探逐步挖掘出嫌疑人内心深处的真实想法,并用它来纠正其异常行为。

一、设计一场“何时用工具”的考试

在此之前,学界已有不少测试大模型工具使用能力的基准,如ToolQA、API-Bank等。但这些测试都有一个共同的隐含前提:每道题都必须借助工具来解决。它们测量的是“会不会用”,而不是“知不知道何时该用”。

为了填补这一空白,研究团队设计了一套全新的评测体系——WHEN2TOOL。

WHEN2TOOL包含18个测试环境,分为15个单步任务和3个多步链式任务,覆盖了AI智能体需要做出工具调用决策的三大核心场景。每个场景都设置了三个难度级别:简单(模型大多无需工具即可答对)、中等(真正的决策模糊地带)、困难(几乎必须借助工具)。这种设计让研究者能精确观察模型在何时过度调用工具,又在何时调用不足。

第一类场景:考验计算规模。 模型完全理解运算规则,关键在于数字大小是否超出了其可靠计算的范围。例如,12加7可以心算,但涉及万亿级乘法或五阶矩阵行列式时,就必须借助计算器。这类环境包括计算器、统计、排列组合、矩阵和质数判断,通过调整数字规模来划定难度边界。

第二类场景:考验知识边界。 “法国首都是什么”属于常识,模型可直接回答;但“Taskforce Nimbus-73的冷却剂等级是什么”中的实体根本不存在于训练数据中,模型必须查阅才能知道。这类环境涵盖文档检索、历史年份、游戏规则、哈希计算和解码,从众所周知的事实到完全虚构的信息,测试模型对自身知识局限的认知。

第三类场景:考验执行可靠性。 模型既知道规则,也拥有所有必要信息,难点在于执行步骤过多,容易出错。预测print(2+3)的输出几乎不会错,但追踪一个20次迭代的动态规划算法,每一步都可能积累误差,最终答案面目全非。这类环境包括列表操作、日期时间计算、代码执行、日程安排和正则表达式。

多步链式任务则更进一步,要求模型做出三个相互依赖的工具调用决策——第一步的输出是第二步的输入,第二步的输出又是第三步的输入,分别对应上述三类场景。

值得一提的是,WHEN2TOOL完全在本地运行,无需任何外部API密钥或网络连接,所有工具响应都在本机确定性模拟,既保证了零成本,又确保了实验的完全可复现性。

二、两种常见解法,为何双双受挫

有了评测基准,团队首先测试了两种最直观的、无需重新训练模型的解决方案:提示词控制与推理引导。他们评估了包括Qwen3系列和Llama系列在内的六个不同规模的模型。

提示词控制的思路很直接:告诉模型“工具很贵,能不用就不用”。团队设计了五种提示模式,从强制使用到完全禁止。结果发现,在默认设置下,模型简直是“工具调用狂魔”。例如,Qwen3-1.7B在750道简单题中发出了864次工具调用,平均每题超过一次。模型的默认逻辑似乎是“能用就用”,完全不考虑必要性。

当提示词开始限制使用时,第二个问题出现了:这种限制是“一刀切”的。以Qwen3-4B为例,从默认切换到“谨慎使用”模式后,简单任务的准确率下降了14.5个百分点,困难任务的准确率也下降了20.3个百分点。提示词并没有聪明地区分必要与多余的调用,而是将两者一同压制。量化指标显示,在困难任务上,每减少一次工具调用所损失的准确率,是简单任务的两倍甚至更多——省钱的同时,把最需要帮助的任务也搞砸了。

推理引导的思路更为精细:让模型在调用工具前,先思考“我到底需不需要用工具”,再据此行动。这种方法在简单任务上确实有所改善,帮助模型减少了一些不必要的调用。但在困难任务上,它依然无力。更严重的问题出现在Llama系列模型上:加入推理引导后,模型开始大段叙述“我打算调用工具……”,却从未生成有效的工具调用格式,最终“光说不练”,导致准确率暴跌。

此外,这两种方法还有一个共同痛点:它们只能提供几个固定的“工作点”,无法平滑调节工具调用的比例。用户如果想在特定预算下最大化准确率,它们都做不到。

三、拨开迷雾:模型的“潜意识”里藏着答案

于是,一个关键问题被提出:模型是真的不知道何时需要工具,还是它其实知道,只是在生成文字时无法表达出来?

为了找到答案,研究团队决定深入模型内部,直接检查神经网络的隐藏状态。这个过程好比不听一个人说什么,而是直接扫描他的大脑活动来判断真实想法。具体做法是:让模型尝试回答问题,根据其对错标记是否需要工具;然后,在模型开始生成输出前,提取其最后一层所有位置的隐藏状态,形成一个高维向量;最后,用这个向量训练一个极简单的线性分类器,预测工具是否必要。

结果令人惊讶。这个简单到几乎可笑的线性分类器,在六个模型上的分类性能指标(AUROC)全部达到了0.89以上,多个模型超过0.95。这意味着,在模型开口说第一个字之前,它的神经网络信号就已经以极高的准确度编码了“这道题需不需要工具”的信息。

最具说服力的对比来自Llama模型。前文提到,推理引导导致其工具调用能力几乎崩溃。然而,在这些同样的模型上,线性探针的AUROC依然轻松达到0.93以上。这说明,模型在神经表示层面“知道”何时需要工具,和它能否通过语言流畅表达出来,是两件独立的事。就像一个人可能内心知道答案,却在表达时因干扰而说错——他大脑里的知识依然存在,只是没被正确传递到输出端。

四、从“潜意识”到行动:PROBE&PREFILL方法

既然模型内部已有清晰的工具必要性信号,问题就变成了:如何利用这个信号,驱动正确的行动?研究团队提出的方案叫做PROBE&PREFILL,可理解为“探针引导预填充”。

整个方法分三步走,如同一个精心设计的接力赛:

第一步,信息提取。 模型处理输入时,会进行一次前向传播来建立计算缓存(这是生成本来就需要做的)。PROBE&PREFILL在此步骤中顺手读取最后一个位置所有层的隐藏状态,这部分额外开销几乎为零。

第二步,探针预测。 将隐藏状态输入训练好的线性探针,得到一个概率值p,表示“此题需要工具”的可能性。然后用一个可调节的阈值τ来做二分决策。调节τ就能获得一条平滑的准确率-效率权衡曲线,而非几个离散的固定点。

第三步,预填充引导。 根据探针的判断,在模型开始生成回复前,先往回复开头插入一句引导语。如果判断不需要工具,插入“I can solve this directly without using a tool.”;如果需要,则插入“I need to use a tool for this question.”。这种“软预填充”允许模型在认为探针判断有误时进行覆盖修正。对于容易忽视软引导的模型,也可采用“硬预填充”模式,直接强制输出格式。

实验证明,PROBE&PREFILL在所有测试模型上都优于基线方法。以Qwen模型为例,在任何给定的工具调用预算下,它都能实现更高的准确率;反之,在任何给定的准确率目标下,它都能用更少的工具调用达成。更重要的是,它展现了“自适应削减”的能力——智慧地跳过简单任务的工具调用,同时保留困难任务的必要调用。

在六个模型上汇总来看,PROBE&PREFILL平均减少了48%的工具调用,同时准确率仅下降1.7个百分点。相比之下,能达到相近准确率的最好基线方法,工具调用减少幅度只有6%;能达到相近工具减少幅度的最好基线,准确率下降了近9个百分点。

五、更多维度的验证

研究团队在多个维度进一步验证了方法的鲁棒性和泛化能力。

多步链式任务: 探针表现同样出色。有趣的是,对于Llama系列模型,探针反而增加了工具调用次数并大幅提升了准确率——这说明这些模型在默认情况下对多步任务的工具调用不足,探针纠正的是调用不足而非过度调用。

跨域泛化: 为了测试探针是否学到了通用信号而非死记硬背,团队进行了跨环境测试。结果显示,跨域探针的性能曲线与全环境训练的探针几乎重合,证明其捕捉的是类别层面的通用逻辑。

真实世界验证: 在开放域问答数据集上的测试表明,在多数情况下,PROBE&PREFILL在减少更多搜索调用的同时,达到了相当甚至更高的准确率。

与监督微调(SFT)对比: SFT虽然能将准确率提高2-3个百分点,但并未可靠减少工具调用,有时甚至略有增加。SFT学会了“怎样更好地回答问题”,但没有学会“何时不用工具”的决策边界。而PROBE&PREFILL只需几秒钟CPU训练时间,不修改任何模型参数,推理时每题额外开销不到0.7毫秒,与现有基础设施完全兼容。

总结与启示

归根结底,这项研究揭示了一个反直觉的事实:AI智能体的工具调用失控问题,往往不是因为模型无知,而是因为它的知识被“锁”在了神经信号层面,未能稳定地渗透到语言生成过程中。说得通俗些,模型的潜意识比它说出来的话更可靠。

PROBE&PREFILL这套方法,本质上是架设了一条旁路,直接读取潜意识信号,绕过语言生成这个不可靠的中间环节,以极低的成本将正确的知识传递到行动层面。这对于任何部署了工具增强型AI的团队都具有直接的参考价值:在不改动模型、不进行昂贵微调的前提下,仅凭几秒钟的探针训练,就能让API费用下降近一半,同时基本不损失任务质量。

更深层的意义或许在于,它提示我们:在许多看似需要大规模干预的AI行为问题中,模型内部可能早已存在正确的信号。我们需要的或许不是重新教它,而是找到更好的方式来倾听它。

Q&A

Q1:WHEN2TOOL基准测试与其他工具有何不同?

A:现有基准(如ToolQA)都假设每道题都需要工具,测的是“会不会用”。WHEN2TOOL则专门测试“知不知道何时该用”——它包含从无需工具到必须工具的连续难度设计,覆盖计算规模、知识边界和执行追踪三大场景,是首个专门研究工具调用决策的基准。

Q2:PROBE&PREFILL需要重新训练大模型吗?

A:完全不需要。该方法只训练一个极简单的线性分类器(探针),该分类器读取已有大模型处理输入时自然产生的隐藏状态信号。整个探针训练只需几百个样本,在普通CPU上几秒完成,不修改任何大模型参数,推理额外开销不到1毫秒,可直接叠加于现有模型服务系统。

Q3:为什么让大模型自己推理“需不需要用工具”效果不好?

A:推理引导要求模型先用语言描述决策过程,再行动。研究发现这个过程相当不可靠:对于Llama系列模型,加入推理引导后,模型会大篇幅叙述调用意图,却从未生成有效的工具调用格式,导致准确率暴跌。更根本的原因是,模型神经网络中已编码了清晰的工具必要性信号(探针AUROC高达0.93以上),但这个信号未被稳定传递到语言生成过程,导致“说的”和“想的”不一致。

来源:https://www.163.com/dy/article/KTAR9MM60511DTVV.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
中芯国际封装技术最新布局与战略部署解析

中芯国际封装技术最新布局与战略部署解析

5月15日,中芯国际在业绩说明会上披露了一项关键战略布局:公司自2015年起便已前瞻性地投入封装技术研发,尤其在先进封装领域进行了长期积累。经过数年的快速发展,其战略路径已非常明确——专注于为自身晶圆制造客户提供所需的关键前端封装技术支持。基于这一战略,中芯国际在过去十年间持续深耕3D CIS(CM

时间:2026-05-20 07:32
阿里巴巴推出AI工业知识考试系统确保回答准确性

阿里巴巴推出AI工业知识考试系统确保回答准确性

最近,工业AI领域有一项研究值得关注。这项由阿里巴巴集团淘宝天猫多模态与工业AI团队主导的工作,已于2026年5月正式发布,论文编号为arXiv:2605 10267v2。其核心成果,是一套名为IndustryBench的专业测试系统。 不妨设想这样一个场景:你是一家工厂的采购经理,正考虑用AI来核

时间:2026-05-20 07:32
腾讯北大联合研发强化学习新方法提升机器人全局决策能力

腾讯北大联合研发强化学习新方法提升机器人全局决策能力

强化学习是一种让智能体通过与环境交互、从试错中学习最优决策策略的人工智能技术。其核心机制类似于训练宠物:做出正确行为给予奖励,错误行为则没有。智能体在模拟或真实环境中不断尝试,根据反馈调整策略,最终找到获得最高累积回报的行动序列。然而,传统强化学习的样本效率低下是公认的难题——智能体往往需要数百万甚

时间:2026-05-20 07:31
香港中文大学研发频谱守护者优化器提升AI训练稳定性

香港中文大学研发频谱守护者优化器提升AI训练稳定性

训练大型语言模型,如同在云端构建一座持续生长的知识大厦。随着模型层数不断增加,任何微小的参数偏差都可能被逐层放大,最终导致训练过程失控。如何确保这座大厦在建造过程中始终保持结构稳定,一直是困扰研究人员的核心挑战。 近期,一项由香港中文大学、马克斯·普朗克智能系统研究所和西湖大学联合发布的技术报告,带

时间:2026-05-20 07:31
豆包服务中断原因与恢复时间详解

豆包服务中断原因与恢复时间详解

5月19日晚间,“豆包崩了”这一话题迅速冲上各大社交平台热搜榜首,引发广泛关注。众多用户反映,豆包AI服务突然出现中断,导致正在进行的在线学习、文案创作、代码编程等工作被迫暂停,一时间用户反馈激增。 事实上,这并非豆包首次出现服务异常问题。回顾今年1月28日,豆包就曾发生过一次影响范围较大的区域性服

时间:2026-05-20 07:31
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程