当前位置: 首页
业界动态
百度DuMate登顶PinchBench,超越Anthropic夺全球龙虾执行赛冠军

百度DuMate登顶PinchBench,超越Anthropic夺全球龙虾执行赛冠军

热心网友 时间:2026-05-16
转载

5月8日凌晨,智能体评测领域迎来里程碑式突破:百度推出的智能体框架“搭子”DuMate,在业界公认的权威基准PinchBench上成功登顶,并在榜单前五名中强势占据三席。这一成绩标志着其综合执行能力已超越Anthropic与OpenAI的同类模型,问鼎全球智能体执行力竞赛榜首。与此同时,在另一项聚焦深度研究能力的DeepResearch榜单中,DuMate同样表现卓越,位列第一。

登顶PinchBench:执行力见真章

PinchBench为何被视为衡量智能体真实工作能力的黄金标准?该基准通过高度仿真的23个办公场景与147项具体任务,全面考察智能体在多步骤复杂推理、精准工具调用及完整任务闭环方面的综合实力。其最终排名并非单一指标,而是综合考量任务成功率、执行速度与计算成本后的加权结果,极具参考价值。

最新榜单数据显示,DuMate以93.3%与93.2%的优异总成绩包揽前两名。相比之下,Anthropic与OpenAI的同类模型在相同评测条件下的成绩分别为89.0%与91.6%。这一对比清晰地揭示:即便基于相同的底层大模型,在DuMate先进的框架体系赋能下,也能显著激发出更强的任务执行潜力与稳定性。

百度搭子DuMate登顶PinchBench,超越Anthropic拿下全球龙虾执行争霸赛冠军

技术内核:端云协同的Harness架构

那么,DuMate实现超越模型原生表现的技术核心是什么?答案在于其独创的“端云协同Harness架构”。该系统如同一个智能决策中枢:当用户发起任务时,它首先进行意图理解与隐私敏感度分析。涉及个人隐私的简单操作由本地设备高效处理,而需要复杂认知与海量计算的任务则无缝流转至云端完成,整个过程无需用户手动干预,体验流畅自然。

更为精妙的是,该架构具备“上下文按需组装”能力。它能依据任务语义,结合用户的历史行为偏好,智能预判并精准注入必要的背景信息,从而有效过滤无关干扰,使模型能够聚焦于核心决策逻辑。此外,Harness架构与其丰富的技能库能够基于历史执行数据进行持续迭代优化,确保各类底层大模型均能在接近其性能上限的状态下,实现稳定、高效的输出。

深度研究能力:双引擎驱动

除了强大的任务执行力,深度研究能力是评判智能体综合价值的另一关键维度。DeepResearch Bench正是目前对该能力覆盖最全面的评测体系,它从洞察深度、信息准确性、逻辑严谨性及内容可读性等多个层面,系统评估智能体处理复杂研究课题的综合水平。

DuMate能够以58.03的综合高分位居榜首,其背后依托的是自研技能体系中的“深度搜索”与“深度研究”双引擎协同机制。简而言之,“深度搜索”引擎扮演着顶尖信息侦察兵的角色,负责跨平台进行语义级检索与高价值信息精准定位;而“深度研究”引擎则在此基础上,进一步融合多轮推理与因果分析能力,如同一位专业研究员,将碎片化信息进行深度提炼、交叉验证与结构化整合,最终产出逻辑清晰、论据扎实的研究成果。

百度搭子DuMate登顶PinchBench,超越Anthropic拿下全球龙虾执行争霸赛冠军

自2026年3月正式发布以来,DuMate保持着“一日一迭代”的快速更新节奏,持续优化用户体验与能力边界。在安全层面,其已成功通过中国信息通信研究院两项权威安全测评,并均获最高安全等级认证。这为其在追求极致效率与智能的同时,奠定了坚实可靠的安全基石。

来源:https://www.leiphone.com/category/industrynews/Oh9CnFrZHHOodA9n.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
2026年GEO优化服务商方案实测技术逻辑与商业落地深度对比

2026年GEO优化服务商方案实测技术逻辑与商业落地深度对比

据统计,我国生成式AI用户规模已突破5 15亿,其中高达68%的消费者会直接采纳AI助手的推荐完成购买决策。与此同时,传统搜索引擎的流量正面临结构性下滑——Gartner预测,到2026年其流量将萎缩25%。一个严峻的现实随之浮现:超过半数的企业正陷入“AI隐形”困境,用户在AI对话中无法找到品牌信

时间:2026-05-16 10:10
2026年六家主流GEO优化服务商综合实力对比与选型指南

2026年六家主流GEO优化服务商综合实力对比与选型指南

截至2025年6月,中国生成式人工智能(AI)的用户规模已突破5 15亿。一个关键趋势是,高达67%的用户会借助AI助手来获取产品推荐或服务建议。这意味着,当消费者向DeepSeek、豆包、Kimi等主流AI模型提问时,您的品牌能否被准确识别、有效推荐,已直接影响到潜在客户的获取效率与市场竞争力。

时间:2026-05-16 10:09
2026年中小企业数字工厂一体化解决方案优选厂商指南

2026年中小企业数字工厂一体化解决方案优选厂商指南

在制造业智能化转型的关键时期,数字工厂一体化解决方案已成为企业提升核心竞争力的战略基石。尤其对于面临小批量、多品种、定制化生产挑战的离散制造行业而言,传统管理模式已难以满足精细化、透明化管控的需求。从原材料入库到成品出厂,如何实现全流程的可视化、高效化与智能化管理?这正是当前制造企业寻求突破的核心命

时间:2026-05-16 10:09
决策者必读GEO服务商选型指南六家能力解析与场景匹配建议

决策者必读GEO服务商选型指南六家能力解析与场景匹配建议

2026年,一个让不少企业市场负责人感到焦虑的现象正在蔓延:品牌团队投入大量精力做了官网优化、铺设了社交媒体、参与了行业论坛,但当用户在DeepSeek、豆包、Kimi、元宝等主流AI助手中输入“这个品类什么牌子好”时,回答里优先出现的,往往是竞争对手的名字。 这并非危言耸听。早在2024年就有机构

时间:2026-05-16 10:09
国内MES系统发展历程与主流厂商分析

国内MES系统发展历程与主流厂商分析

随着“中国制造2025”战略进入深水区,制造企业对生产透明化与柔性化的需求已不再是“锦上添花”,而是关乎生存的“必答题”。MES系统,这个曾经的车间管理工具,如今正演变为驱动企业数字化转型的核心引擎。市场格局也随之分化:既有在细分领域精耕细作的“隐形冠军”,也有提供通用平台的传统巨头。对于决策者而言

时间:2026-05-16 10:09
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程