人大团队首创AI智能体评分系统，精准评估性能

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

人大团队首创AI智能体评分系统，精准评估性能

热心网友时间：2026-03-25

转载

这项由中国人民大学、北京交通大学和清华大学联合完成的研究发表于2026年3月的机器学习顶级会议，研究团队开发出了全球首个专门为工具使用智能体设计的步骤级质量评估基准。这个名为AgentProcessBench的系统就像一位细致的老师，能够逐步分析AI智能体在完成任务时每个决策步骤的好坏，有兴趣深入了解的读者可以通过论文编号arXiv:2603.14465v1查询完整论文。

在日常生活中，当我们使用智能助手帮助完成复杂任务时，比如预订机票、查找资料或处理工作事务，这些AI助手需要进行一系列操作。每个操作都像烹饪时的一个步骤，有些步骤做得很好，有些可能存在问题，还有些步骤虽然无害但也没什么用处。传统的评估方法只看最终结果，就像只关心菜品味道而忽略制作过程一样。但实际上，了解每个烹饪步骤的质量对改进整个制作过程至关重要。

研究团队发现，目前的AI智能体在执行长期任务时经常出错，这些错误往往会产生无法挽回的后果。比如删除重要文件或发送错误邮件，这就像烹饪时加错调料一样，一旦出错就很难补救。与数学推理不同，数学题做错了可以重新计算，但智能体使用工具时的错误往往具有不可逆性。因此，准确识别每个中间步骤的有效性变得极其重要。

研究团队构建了一个包含1000个不同任务轨迹和8509个人工标注步骤的大规模数据集，这就像建立了一个巨大的教学案例库。他们设计了一套三分制评分系统，就像老师给学生作业打分一样。正确且有效的步骤得到正分，表示这一步推进了任务进展；中性或探索性的步骤得零分，表示虽然合理但作用有限；错误或有害的步骤得负分，表示这一步阻碍了任务完成或产生了负面影响。

为了确保评分的准确性和一致性，研究团队采用了严格的标注流程。所有标注者都必须具备计算机科学本科以上学历，并拥有至少一年的大语言模型使用经验。标注过程中，每个任务都由两名专家独立评估，最终达到了89.1%的标注者间一致性，这个数字表明评分标准的可靠性很高。

一、数据收集过程：构建智能体行为的"教科书"

研究团队的数据收集过程就像编写一本关于智能体行为的综合教科书。他们从四个不同的已有基准测试中收集任务，这四个基准就像四本不同学科的教材，分别涵盖了多跳推理、深度信息检索、复杂工具使用等各种能力。

具体来说，这些基准包括HotpotQA，专门测试需要多步推理的问答能力；GAIA，考验智能体在开放世界环境中的信息获取和处理能力；BFCL，重点评估函数调用和工具使用的准确性；以及τ?-Bench，测试长期对话交互中的工具执行能力。这种多样化的任务选择确保了评估体系的全面性，就像一个学生需要在不同科目上都表现良好才能证明其综合能力一样。

为了获得丰富多样的智能体行为样本，研究团队让五个不同的AI模型来执行这些任务，这五个模型来自不同的技术家族，参数规模和性能水平各不相同。这就像邀请不同水平的学生来解答同一套题目，从而获得各种各样的解题思路和可能出现的错误模式。通过这种方式，研究团队收集到了覆盖面极广的智能体行为数据，既包括成功的策略，也包含各种失败的案例。

在任务选择上，研究团队采用了基于语义相似度的采样方法。他们使用E5嵌入模型对所有任务进行编码，然后通过最大化成对距离的方式选择最具代表性的任务实例。这种方法确保了选中的任务在语义上具有足够的多样性，避免了数据集中任务类型过于单一的问题。

二、评分标准设计：建立公平合理的评判体系

研究团队设计的评分标准就像制定一套既严格又公平的考试评分规则。这套评分系统的核心在于其三分制结构，每个分数等级都有明确的判定标准和具体的应用场景。

正分（+1）代表正确且有效的步骤。这类步骤必须在事实上准确无误，并且明显推进任务向成功完成的方向发展。具体表现包括正确调用工具或解释工具输出、引入有效的约束条件或决策信息、识别并纠正先前步骤中的错误等。这就像烹饪时正确地添加调料或掌握火候，每一步都让最终的菜品变得更好。

零分（0）代表中性或探索性的步骤。这类步骤虽然合理，但对任务进展的影响有限或不明确。典型情况包括遇到不可避免的外部失败（比如网页404错误，但尝试访问是合理的）、进行冗余的重述或制定没有新见解的部分计划、执行结果模糊但既不明显有益也不明显有害的行动。这类步骤就像烹饪时的准备工作，比如洗手或整理工具台，虽然必要但不直接影响菜品质量。

负分（-1）代表错误或有害的步骤。这类步骤包含事实错误或对任务完成产生反作用。常见情况有误解工具输出或编造证据、违反策略约束或在没有实质性策略改变的情况下重复失败的行动、引入事实错误从而将轨迹引向错误方向。这就像烹饪时加错调料或烧糊了食物，不仅没有帮助，还破坏了整道菜。

为了减少标注歧义并提高样本效率，研究团队还采用了错误传播标注规则。一旦出现错误步骤，所有依赖或因果相关的后续步骤都会被标记为负分，直到智能体明确纠正错误或转向与先前失败无关的新子任务。这种设计有效防止了对下游步骤的虚假积分分配，并确保了长期轨迹的一致监督。

三、实验设计与模型评估：全方位检验智能体能力

研究团队的实验设计就像组织一场大规模的标准化考试，他们邀请了20个不同的大语言模型参与测试，这些模型既包括商业化的API模型，也包括开源模型，覆盖了当前AI技术的主要流派和性能水平。

在API模型中，研究团队测试了GPT-5.2系列（包括基础版、对话版和思维链版本）、DeepSeek-V3.2系列、Gemini-3-Flash-Preview系列以及Kimi-K2.5系列。开源模型方面，他们评估了Qwen3系列（涵盖4B、8B和30B-A3B等不同参数规模）以及LLaMA-3系列（包括3.1-8B、3.2-3B和3.3-70B版本）。这种全面的模型覆盖确保了评估结果的代表性和可靠性。

为了确保评估的公平性，研究团队对所有实验采用了一致的提示模板。对于具备思维链能力的模型，他们采用推荐的采样参数进行测试，而对于普通模型则使用贪婪解码策略。这种标准化的测试环境确保了不同模型之间的可比较性。

研究团队设计了两个互补的评估指标来全面衡量模型的步骤级评估能力。第一个指标是步骤准确率，计算模型预测与人工标注之间的微平均一致性比例，这个指标反映了模型在所有助手步骤上的整体标注质量。第二个指标是首错准确率，专门衡量模型识别轨迹中第一个错误步骤的能力。这个指标不受错误传播的影响，也不受轨迹长度的干扰，直接测量模型在长期轨迹中定位最早关键失败的能力。

四、关键发现：揭示智能体评估的挑战与规律

实验结果揭示了当前AI模型在智能体评估方面的多个重要特征和挑战。首先，开源模型与商业模型之间仍然存在显著的性能差距。表现最好的开源模型Qwen3-30B-A3B-Thinking-2507在步骤准确率上达到68.5%，而商业模型Gemini-3-Flash-Preview-Thinking则达到了81.6%，这种差距在各个子基准上都保持一致，表明这种差异并非特定于某种任务类型。

模型规模和推理机制对准确的步骤级评估起到关键作用。研究团队观察到，更大的模型参数规模持续带来性能提升，无论是Qwen还是Llama系列，从3B扩展到70B参数都能在所有指标上看到改进。同时，具备思维链能力的模型显著优于其指令调优版本。比如在相同参数规模下，Qwen3-8B的推理模式比非推理版本在步骤准确率上高出6.1%，在首错准确率上高出5.3%。

有趣的是，研究还发现了一个反直觉的现象：较弱的模型有时会表现出更高的正确步骤比例。这是因为这些模型更容易提前终止，从而限制了错误步骤的累积。这种"早失败"行为突出了研究团队提出的首错准确率指标的重要性，它提供了一个不受轨迹长度影响的公平比较基准。

任务复杂度的增加显著影响错误定位能力，特别是对较小模型而言。当从HotpotQA转向更复杂的GAIA时，几乎所有模型都出现了性能下降，但这种下降对较弱模型更为明显。前沿的非思维链模型Gemini-3-Flash-Preview的步骤准确率和首错准确率分别下降了2.9%和16.8%，而Qwen3-4B的下降幅度则达到了22.8%和30%。

五、数据集特征分析：不同任务类型的失败模式

研究团队对收集到的数据进行了深入分析，发现不同类型的任务表现出截然不同的失败模式和行为特征。这些发现就像医生诊断病症时发现的不同疾病类型，每种都有其独特的症状和表现。

在任务复杂度和交互长度方面，数据显示了明显的相关性。更具挑战性的任务和不成功的轨迹往往涉及更多的交互步骤。比如GAIA和HotpotQA虽然都是基于网络的信息搜索基准，但GAIA本身更加复杂，因此平均需要更多步骤。在轨迹结果方面，除了BFCL之外，所有数据集中的不成功轨迹都比成功轨迹更长，这反映了模型在失败时倾向于持续探索的行为模式。

不同数据集展现了独特的策略失败模式。对于τ?-Bench，首次错误更可能出现在轨迹的后期步骤，这表明模型能够在初始交互中正确地调用适当工具来推进任务，但随着交互的进行，由于策略违反或难以正确解释新引入的用户需求，失败往往会逐渐显现。相比之下，HotpotQA和GAIA中有很大一部分错误发生在第一步，定性分析显示这通常由无效的工具调用引起，比如语法或格式错误，或者在制定可行的信息搜索策略方面的直接失败。

从轨迹级别和步骤级别的标签分布来看，成功和不成功的轨迹都包含正确和错误步骤的混合。然而，不成功的轨迹始终表现出更高的错误步骤比例，这表明轨迹级别的失败不是由单一错误行动造成的，而是由局部错误的累积导致的。这种模式强调了细粒度步骤级监督在训练更可靠的智能体系统中的重要性。

六、模型评估能力的深度分析：发现评分系统的局限性

通过对模型评估行为的详细分析，研究团队发现了当前AI模型在轨迹评估方面的几个系统性局限。这些发现就像发现考官在阅卷时存在的认知偏差，对理解和改进评估系统具有重要意义。

最突出的问题是模型对正面标签的过度预测倾向。无论是最强的商业模型还是开源模型，都表现出明显倾向于给出正分的偏差，这在混淆矩阵中表现为所有行都有大量概率质量集中在正分预测列上。这种偏差对Qwen3-30B-A3B-Thinking来说更为明显，导致了较高的假阳性率，这是其整体准确率低于Gemini-3-Flash-Preview的主要原因。

中性步骤的识别一直是两种模型面临的挑战。中性标签的混淆质量分布更为分散，错误分类经常偏向正面标签。研究团队将此主要归因于中性标签的固有模糊性。与明显正确或明显有害的行动不同，许多中性步骤的效用是上下文相关的，通常只有通过下游效果才能确定，比如检索到的证据是否后来被使用、不确定性是否得到减少，或者替代行动是否会更有效。

这种模糊性意味着中性步骤展现了弱而延迟的监督信号，使得仅从局部步骤判断其价值变得困难，因此更容易被错误分类。这个发现突出了评估开放式工具使用本质上比验证严格的数学推导更困难的事实。

研究还发现，在充当结果奖励模型（ORM）方面表现更强的模型往往也是更强的过程奖励模型（PRM）。步骤级评估准确率和轨迹级最终准确率之间表现出强烈且统计显著的正相关关系，皮尔逊相关系数达到0.814。这种相关性表明，能够可靠预测步骤正确性的模型也倾向于更准确地预测最终结果。

七、过程信号的实用价值：改进智能体性能的新途径

研究团队进一步探索了过程层面信号在实际应用中的价值，特别是在Best-of-N采样策略中的表现。Best-of-N采样是一种常用的测试时扩展技术，通过生成多个候选解决方案然后选择最佳的一个来提高最终性能。

实验结果显示，基于步骤级积极性的简单统计方法（比如积极步骤的数量和比例）是有效的测试时扩展策略，对于较弱的生成器如Qwen3-30B-A3B往往能超越仅基于结果的标准。更重要的是，在两阶段选择器中结合结果级和过程级信号能够在所有生成器上持续提升性能。这表明过程衍生的分数为改进或在ORM选择的候选者之间进行决胜提供了互补的判别信号。

具体来说，在GAIA数据集上的实验显示，对于Qwen3-30B-A3B-Instruct-2507这样的模型，基于积极步骤比例的选择策略能够将准确率从37.7%提升到47.2%。而两阶段策略（先用结果级标准过滤，再用过程级信号精选）则能将准确率进一步提升到43.4%。对于更强的模型如DeepSeek-V3.2-Thinking，两阶段策略能够将准确率从56.6%提升到64.2%。

尽管如此，理想的Pass@N上界（77.4%）仍然大大高于这里评估的所有实用Best-of-N策略，表明未来奖励模型仍有相当大的改进空间。这个发现突出了开发更精准的过程奖励模型的重要性和潜力。

八、案例研究：深入剖析评估过程的复杂性

为了更直观地展示AgentProcessBench的复杂性和当前模型在评估方面的局限性，研究团队详细分析了一个典型案例。这个案例就像一个教学样本，生动展示了智能体评估过程中可能遇到的各种挑战。

在这个案例中，用户声称自己是"金牌"会员，希望获得航班延误的更高赔偿，但系统记录显示该用户实际上是"普通"会员。智能体助手在开始时未能验证这一会员资格声明，直接基于未经验证的状态提供了错误的赔偿建议。虽然助手后来通过查询用户详细信息纠正了这个错误，但其在第7步的行为构成了策略违反。

根据标注指南，第7步被标记为负分，而其他所有步骤都被标记为正分，因为它们符合正确的程序逻辑。然而，两个最先进模型的表现揭示了显著的推理差距。Gemini-3-Flash-Preview未能检测到助手的初始疏忽，错误地为轨迹中的每一步都分配了正分。GPT-5.2虽然成功识别了第7步的错误，但随后在对后续步骤的推理中出现了"幻觉"。

具体来说，GPT-5.2误解了助手在第11步请求航班详细信息的行为，将其解释为立即承诺给予赔偿，因此错误地对第11、13和15步给出了负分。这两个强大的模型都未能在这个案例上取得满分，这突出了AgentProcessBench固有的复杂性。该案例需要过程奖励模型基于特定的策略约束进行严格的步骤级推理，从而突出了基准在评估甚至最先进的当前大语言模型的鲁棒推理能力方面的价值。

说到底，这项研究为我们打开了一扇了解AI智能体内在工作机制的窗户。就像医生需要监测病人的生命体征来判断治疗效果一样，我们现在有了一套系统的方法来评估智能体每个决策步骤的质量。这不仅能帮助研究者更好地训练和改进智能体系统，也为普通用户提供了理解AI决策过程的新视角。

归根结底，这个研究告诉我们，评估AI的能力不应该只看最终结果，过程同样重要。未来的智能体系统将会更加可靠和透明，能够像熟练的工匠一样，在每个环节都精益求精。对于普通人而言，这意味着我们将拥有更值得信赖的AI助手，它们不仅能完成任务，更能让我们了解它们的工作方式，从而建立起人与机器之间更深层的信任关系。

研究团队计划将AgentProcessBench扩展到更多领域，比如图形用户界面操作和计算机使用等场景。这项工作为工具使用过程奖励模型的发展奠定了坚实基础，有望催化未来更强大、更可靠的智能体系统的研究和开发。

Q&A

Q1：AgentProcessBench是什么系统？

A：AgentProcessBench是由人民大学等机构开发的全球首个专门评估AI智能体决策步骤质量的系统，就像一位细致的老师能够逐步分析AI在完成任务时每个步骤的好坏。它包含1000个任务轨迹和8509个人工标注步骤，采用+1、0、-1的三分制评分标准。

Q2：为什么需要评估AI智能体的每个步骤而不只看结果？

A：因为AI智能体使用工具时的错误往往具有不可逆性，比如删除重要文件或发送错误邮件，一旦出错就很难补救。传统方法只看最终结果就像只关心菜品味道而忽略制作过程，但了解每个步骤的质量对改进整个系统至关重要。

Q3：当前AI模型在步骤评估上表现如何？

A：实验显示商业模型普遍优于开源模型，最强的开源模型步骤准确率为68.5%，而商业模型可达81.6%。所有模型都存在过度给正分的倾向，在识别中性或探索性步骤方面表现较差，这表明评估开放式工具使用比数学推理更具挑战性。

来源:https://www.163.com/dy/article/KOTAOJMV0511DTVV.html

上一篇：微软研究院：在线体验学习法让AI越用越聪明

下一篇：王振清：核安全是发展核电的第一生命线