智能体评测新阶段为何需要动态基准测试

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

智能体评测新阶段为何需要动态基准测试

热心网友时间：2026-05-11

转载

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

如今的AI智能体，正日益成为我们得力的数字助手：调用API、查询数据库、撰写邮件、修改代码、安排日程、生成报表，几乎无所不能。然而，随之而来的挑战也愈发明显——问题已不在于它“能否流畅对话”，而在于两个更实际的层面：它是否真正完成了任务？以及，我们用来评估它的测试任务，是否还真实反映了当下企业最核心的工作流程？

这正是Claw-Eval与Claw-Eval-Live两大评测基准试图解答的核心问题。前者致力于解决“如何验证智能体是否真实执行了任务”，后者则挑战“评测题库如何持续跟上现实需求的演变”。这标志着AI智能体评测进入了全新的“下半场”：竞争焦点已从“谁更会答题”转向了“谁更贴近真实业务场景”。

如何确认AI智能体真的完成了任务？

在Claw-Eval出现之前，主流的智能体评测方法相对简单：给定一个任务，仅观察最终输出结果，然后判断对错。文件是否创建？测试是否通过？答案是否匹配？如果答案是肯定的，便视为通过。

这听起来合理，但对于评估AI智能体的真实能力，这种方式存在两个根本性缺陷。

第一，它只关注结果，而忽略了行动过程。模型可能生成一份看似完美的报告，但它真的查询了正确的数据源吗？确实调用了指定的API吗？还是仅仅“虚构”了一个符合预期的答案？近期研究表明，前沿大模型会主动寻找评测捷径，绕过预期的执行路径，直接生成满足最终检查的答案。只看结果的评测方式，恰恰为这种行为提供了便利。

第二，它难以反映真实部署环境的要求。一个真正可投入使用的智能体，不仅要能完成任务，还必须在执行过程中避免不当操作，并能在API超时、服务报错等不稳定环境下保持稳健运行。换言之，评测不能只看“能否产出结果”，更要看“是否安全、稳健地执行”。Claw-Eval进一步将多模态交互与多轮对话纳入统一评测框架，但其最关键的贡献，在于将智能体评测从“只看答案”推进到了“审视行动过程”。

Claw-Eval：将执行过程转化为可审计的证据链

Claw-Eval包含了300道经过人工严格验证的任务，覆盖通用服务编排、多模态感知与生成、多轮专业对话三大类别，共定义了2,159个可独立验证的评分细则。

其核心思路可以概括为一句话：将智能体的执行过程转化为可审计、可验证的证据。每次评测都在隔离的沙箱环境中进行，分为准备（Setup）、执行（Execution）、评判（Judge）三个阶段；在智能体运行时，容器内无法访问评分脚本和参考答案。真正用于打分的，不只是最终输出，而是三条独立的证据链：完整的执行轨迹、服务端审计日志，以及执行后的环境状态快照。

在此基础上，Claw-Eval将任务完成度、操作安全性、系统鲁棒性以及跨模态任务统一纳入同一套评测框架。

Claw-Eval最关键的发现非常直接：如果不审视过程，智能体评测会系统性“放水”，导致能力被高估。

研究团队进行了一项严格的对照实验：让一个普通的大语言模型评判者获取完整的对话记录和评分脚本源码，但缺少服务端审计日志和环境快照。结果显示，它仍然漏掉了44%的安全违规行为和13%的鲁棒性问题。这意味着，对于智能体而言，“只看结果”的评测方式不仅不够精细，更会系统性高估模型的真实能力。

当然，Claw-Eval还揭示了更多洞见，例如错误注入会显著降低系统可靠性（Pass^3指标最多下降24个百分点）、在多模态和多轮对话能力上并不存在统一的领先者。但就本文核心而言，最重要的结论只有一个：可靠的AI智能体评测基准不能只看答案，必须深度审视其行动过程。

然而，当“如何评测”的问题被厘清后，另一个更现实的问题随之浮现：即便评测方法足够可信，如果基准测试所评估的工作流本身已逐渐偏离现实需求，那么评测得再准确，也可能指向错误的方向。

这正是Claw-Eval-Live旨在解决的下一阶段问题。

“评得准”还不够，评测基准也会过时

从这里开始，问题的核心从“怎么评”转向了“评什么”。这也是Claw-Eval-Live切入的关键点。

Claw-Eval解决了“评分是否可信”的问题。但它与几乎所有现有基准测试一样，存在一个更根本的局限：其任务集合是静态且固定的。

300道任务，在发布之日就已确定。无论外部的工具生态如何快速迭代、企业工作流的重心如何迁移、用户最希望自动化处理的任务从日报写作变为跨系统对账——基准测试中的任务分布都不会随之动态调整。

在传统的自然语言处理评测中，这或许不是大问题，因为“翻译一段文本”、“回答一个问题”这类任务形态相对稳定。但在智能体评测领域，这个问题被急剧放大。智能体面对的不是抽象的语言任务，而是具体、动态的业务工作流。而工作流一直在变化——工具栈在迭代，企业痛点发生迁移，某些自动化场景从无到有涌现，另一些则从核心变为边缘。

一个基准测试可以在技术上保持完全可复现，但它所测试的任务组合，可能正在悄悄偏离用户当下最希望智能体完成的事情。这种偏移并非源于某道具体任务“过时”，而是源于任务混合比例本身未能反映现实。半年前最热门的自动化需求与今天最迫切的需求，很可能已大不相同。

这就是Claw-Eval-Live要解决的核心挑战。

“活的”评测基准究竟如何运作？

听到“动态基准测试”，许多人的第一反应是：如果每天都在变化，岂不是根本无法进行模型比较？

Claw-Eval-Live的答案并非“让基准一直变”，而是：让每一次版本发布，都成为捕捉当下真实世界需求的一张精准切片。

其核心是两层分离的设计架构：

信号层——每次构建新版本时，并非由团队内部头脑风暴“应该测试什么”，而是从ClawHub Top-500热门技能等公开的工作流需求信号出发，分析当前哪些工作流更值得关注。需要强调的是，这些信号并非自动出题器，也不是对真实需求的精确测量。它们只是一个公开、可核查的需求先验，用于帮助基准测试决定当前版本应更侧重于哪些工作流。

发布层——最终公开发布的基准测试依然是固定的、带有明确时间戳的快照。任务定义、执行环境、数据夹具、评分脚本全部锁定。模型之间完全可以进行稳定、公平的比较，在学术上也完全可复现。

两层之间通过一条五阶段流水线紧密连接：

信号采集：抓取ClawHub Top-500等来源的时间戳快照，每条信号都带有明确的来源和元数据。
模式聚类：将碎片化的技能名称聚合成稳定的工作流模式——区分的不再是技能的表面名称，而是其背后的用户目标、操作对象和执行环境。
家族加权：根据上游信号强度确定各任务家族的目标权重，信号越强的工作流在发布版本中所占比例越大。
种子扩展与筛选：将加权后的模式展开为可执行的任务候选，经过试跑筛选，仅保留可运行、可复现、且能产生有效分数差异的候选——从178个生成候选筛选至157个。
区分度优化选取：使用混合整数线性规划（MILP）从157个候选中精选出105道公开任务，同时优化三个约束条件——发布规模、家族覆盖率和榜单区分度。

这里的MILP并非机械地追求“多样性”，而是将三件事显式化：公开版本应有多大、每个家族至少应被覆盖多少、以及这套题目要能真正拉开不同模型之间的能力差距。将这些原本模糊的策展判断转变为可审计的数学约束，是Claw-Eval-Live让版本构建过程本身也变得透明、可信的方式。

当前公开版本的规模是：105道任务，22个任务家族，涵盖13个前沿大模型。任务分为两大执行环境——87道服务驱动的业务工作流（涉及CRM、邮件、日历、财务、工单等18个受控服务）和18道本地工作空间修复任务（终端操作、环境修复、配置调试）。

每道任务不只是一个提示词，而是一个完整的可执行评测单元：包含任务定义（task.yaml）、工具接口、数据夹具以及专属评分脚本（grader.py），缺一不可。评分沿用Claw-Eval的证据锚定原则——在整个发布版本中，最常见的三类确定性证据包括：数据检索（是否调用了正确的工具和数据源）、数据准确性（实体和数值是否与真实情况一致）、行动验证（必需的状态变更是否真实发生）。只有当这些确定性检查无法覆盖的语义维度（如报告组织质量、摘要连贯性）时，才引入结构化的LLM评判者进行辅助评估。

因此，从项目演进脉络来看，这两项工作是一脉相承的：

Claw-Eval解决“评分可信度”问题——让我们看清智能体到底做了什么。
Claw-Eval-Live解决“题库时效性”问题——让基准测试不再停留在一套固定题目上，而是持续对准当下最值得测试的真实工作流。

当基准真正贴近现实，我们看到了什么？

13个前沿模型在当前版本上的评测结果足够直接，也足够引人深思。

整体天花板依然很低

没有任何一个模型的总体通过率突破70%。榜首与末尾的差距达到22.9个百分点。这表明，面向真实业务工作流的自动化，远未达到“可靠部署”的阶段。

值得注意的是，通过率相近的模型，其任务完成度可以相差甚远。MiMo V2 Pro、Kimi K2.5、Gemini 3.1 Pro三个模型的通过率均为53.3%，但总体完成度从76.9%到74.0%不等，这说明有些模型并非完全不会做，而是经常“差一点做完”——问题的核心不在于语言理解能力，而在于执行的完整闭环能力。

真正有冲击力的发现：难点并非直觉所想

如果仅凭直觉，很多人会认为最困难的肯定是终端操作、环境修复这些需要硬核技术能力的任务。

Claw-Eval-Live给出的结果恰恰相反。

从分组热力图来看，开发/终端类任务对强模型而言已接近天花板：Claude Opus 4.6、GPT-5.4和Claude Sonnet 4.6在这个维度上都达到了100%的通过率，最弱的模型也达到了72.2%以上。真正困难的，是HR/人事、管理/运营以及跨系统工作流这类复杂的业务任务。在HR/人事这一组中，没有模型超过22.2%的通过率，而且有多个模型直接得了0分。

进一步观察细粒度的任务家族，结论更加尖锐。HR任务的平均通过率只有6.8%；管理任务在公开的通过规则下是全败；跨系统工作流的平均通过率也只有12.8%。相反，看上去“更技术”的工作空间修复任务反而相对容易。整个基准测试分为两种执行环境后，这个差异更加明显：工作空间修复侧，所有模型都至少达到72.2%的通过率；而服务支持的业务工作流侧，没有模型超过59.8%。

这意味着，当前AI智能体的主要瓶颈，已经不是“会不会使用终端命令”，而是“能否在多个异构系统之间持续收集证据、正确关联记录，并完成必需的写入操作”。

论文中最能说明这个问题的，是几个高区分度任务的表现模式。例如电商月度对账（ecommerce_monthly_reconcile）、客服首次响应时间审计（first_response_time_audit）和多文档合并（multi_doc_merge），它们的共同特征是：必须从多个来源精确提取数据，任何一个工具调用的遗漏或实体链接的错误都会导致大幅扣分。

以论文附录中展示的代表性子任务HR_01_onboarding为例，多个模型都能生成体面的新员工入职文档，但均未达到公开的通过阈值。问题不在于文档是否通顺，而在于模型没有真正将员工信息、必需的工具调用和任务证据形成闭环。它更像是在“描述”一件事，而不是“执行完”一件事。

这是Claw-Eval-Live最有价值的发现之一：今天智能体面临的最大挑战，不是“修复一个具体的故障”，而是“在多个关联系统之间，真正完成一项端到端的业务流程”。

“说得好”不等于“做得到”

Claw-Eval-Live的模型排名与通常的聊天或写作基准测试排名并不一致，这恰恰体现了其独特价值。

它不奖励“最终回答写得多么流畅”，而是奖励跨系统证据收集能力、正确的记录关联能力、行动闭环能力以及执行后状态完整性。一个模型可以生成极其流畅的总结报告，但如果它遗漏了必需的工具调用、缺失了关键证据、或者最终的工作空间状态不正确——在这里照样无法得分。这就是“语言表达能力”与“实际执行能力”的核心区别。

从部署视角再看：成本同样至关重要

如果从实际部署的角度审视榜单，估算的API调用成本差异同样巨大。此处必须强调“估算”：论文按照记录的输入输出token用量和发布时的模型供应商公开标价计算，并不等同于真实业务场景下的账单。

Claude Opus 4.6准确率最高，但跑完整个105题版本的估算API成本约为31.6美元；GPT-5.4以约6.3美元的成本获得第二名，通过率仅低2.9个百分点；GLM-5以约2.5美元的成本达到与Claude Sonnet 4.6相同的61.9%通过率，其估算成本约为Opus的7.8%，即约1/12.8。

对于真正计划部署AI智能体的团队而言，总榜排名只是起点，更实际的决策维度是“在具体工作流家族上的准确率与成本的综合权衡”。