数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

100轮工具调用，8B小模型也能做复杂长搜索，MiniMax&港科大最新开源

100轮工具调用，8B小模型也能做复杂长搜索，MiniMax&港科大最新开源

热心网友时间：2025-09-12

转载

网络搜索Agent效果不好，猛猛投喂一波数据，表现还那样，咋回事？

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

港科大&MiniMax团队指出问题核心：不是模型参数不够多，而是缺乏足够有挑战性的训练数据。

换句话说，别死记硬背了，来做点“真题”吧。

他们提出了一种构建高质量QA对的方法WebExplorer。

用该方法构建的数据集去训练，即使是较小的模型，也可以在复杂、长程的搜索任务上超越更大的模型。

训练后的8B模型支持高达128K的上下文长度和100次工具调用轮次的长期推理，能在参数量低于10B的模型中取得顶尖结果。

网友评价：用模型驱动的方式做探索，确实比传统图谱方法更能让智能体的浏览行为变灵活。

模型及数据集均已开源，链接可见文末。

优质训练数据稀缺

随着大语言模型（LLM）的快速发展，智能体的能力边界不断扩展。

网络搜索智能体作为这一发展的重要组成部分，能够自主地从广泛的在线资源中检索信息；长视野（Long-Horizon）网络智能体更是需要在多个间进行复杂的推理和搜索。

可是呢，现有的开源网络智能体在处理复杂搜索任务时往往表现有限，更强大的商业模型又缺乏透明的训练细节。

港科大联合MiniMax团队提出，开发高能力网络搜索智能体，根本在于提升训练数据的质量。

当前的评测基准已经发展到了极其困难的程度：例如，在BrowseComp-en基准测试中，超过一半的问题连人类标注者都无法在两小时内解决。虽然这样的难题在典型用例中很少见，但构建高质量、困难的QA对，对于开发能够实现超人性能的信息搜索智能体至关重要。

不过目前的常见方法都有局限性，可能带来不自然的查询表达和有限的合成灵活性。

针对上述问题呢，研究团队提出了一个新颖的两阶段方法WebExplorer——

使用创新的探索-演化框架，就能创建出需要多步推理和复杂网络导航的高难度QA对。

该框架的第一阶段是模型驱动的探索(Model-Based Exploration)，让模型更自主灵活地探索信息空间。

具体来说，从一个种子实体开始，系统利用强大的LLM，通过迭代搜索和浏览操作来模拟图构建过程。

这种方法能够灵活、动态地探索与种子实体相关的信息空间。然后，基于这个初始的信息空间，模型再来构建初步QA对。

初步QA对相对简单，于是WebExplorer引入了第二阶段的迭代查询演化(Iterative Query Evolution)过程。

这一阶段通过系统地移除明确线索和引入战略性模糊，来提高查询难度。

简单地说，这种方法采用”从长到短”的演化策略，通过以下三个战略方向改进查询：

1、移除显著信息：去掉过于明显的提示

2、引入战略性模糊化：对日期、地点和专有名词等具体细节进行模糊处理

3、寻找替代描述：用模糊的描述符替换原始的明确引用

例如，一个初始查询可能包含“这位球员44岁时去世”这样的明确信息，经过演化后变成模糊的描述如“这位球员于中年去世”，需要更多探索性搜索尝试才能到达正确答案。

通过这个探索-演化过程，研究团队构建了WebExplorer-QA数据集，包含大约4万个演化后的最终问答对。

为了验证数据质量，他们使用Claude-4-Sonnet模型进行了全面的比较分析。上图为工具调用次数分布的比较，左边显示初始问答对vs演化问答对，右边显示演化问答对vs BrowseComp-en。

可以看到，演化过程有效增加了解决问题所需的工具调用次数。

演化过程的效果显著：强性能商业模型的准确率从86.6%大幅下降到67.1%，而解决问题的平均工具调用次数从7.9次显著增加到9.9次。这表明演化过程成功创建了需要广泛多步推理和探索的复杂查询。

研究团队使用得到的WebExplorer-QA，用监督微调+强化学习两段式的经典训练法，训练出8B大小的WebExplorer-8B。该模型在多个信息搜索基准测试中取得了同等规模下的最先进性能。

数据质量比模型规模更重要

WebExplorer-8B基于Qwen3-8B模型训练，实现了支持128K上下文长度和100次工具调用的长视野推理。

尽管只有8B参数，WebExplorer-8B在多个基准测试中持续超越了更大的开源模型。

WebExplorer-8B在强化学习训练后能够平均高效搜索16轮，在BrowseComp-en/zh上实现了比WebSailor-72B更高的准确率，并在WebWalkerQA和FRAMES数据集上取得了小于100B参数模型中的最佳性能。

此外，尽管WebExplorer的问答对合成方法受到BrowseComp-en的启发，但该模型在不同基准测试和领域中都表现出了有效的泛化能力。

哪怕训练数据并非专注于STEM领域，该模型在学术前沿基准HLE上也取得了17.3%的成绩，超越了之前的32B模型，进一步验证了这种方法的稳健性和可转移性。

研究团队表示，WebExplorer方法为训练高级网络智能体提供了一条实用的路径。证明了通过精心设计的数据合成方法和训练策略，较小的模型可以在复杂任务上超越更大的模型。

这种参数效率对于AI技术在资源受限环境中的应用和部署具有重要意义。

也有网友表示：这种方法看起来很有前景。

你怎么看？

参考链接：https://x.com/WenhuChen/status/1965537550937792934

论文地址：https://arxiv.org/abs/2509.06501

Github：https://github.com/hkust-nlp/WebExplorer

模型：https://huggingface.co/hkust-nlp/WebExplorer-8B

数据集：https://huggingface.co/datasets/hkust-nlp/WebExplorer-QA

来源:https://36kr.com/p/3463502627575425

上一篇： AI应用争夺高校市场

下一篇： PC掌机“挂尿袋”，究竟是技术局限、还是创新？

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章

追觅宣布进军天文领域构建“空天地一体化”生态

追觅宣布进军天文领域构建“空天地一体化”生态

“我们的代码，终将写入繁星”：追觅科技成立天文BU，构建从地面到太空的生态闭环 “我们的代码，终将写入繁星。”这句来自追觅科技的宣言，不只是一句诗意的口号，更是一份清晰的战略升级路线图。就在9月10日，这家中国科技企业正式宣告成立天文业务单元（BU），由此完成了一次至关重要的战略跃迁。这标志着其“全

时间：2026-04-17 22:59

人类发现已知最大黑洞，质量达到太阳363亿倍！

人类发现已知最大黑洞，质量达到太阳363亿倍！

天文学新纪录：观测到质量达太阳363亿倍的“极限”黑洞最近的天文学界传来一个重磅消息。在距离我们大约50亿光年之外，一个代号为SDSS J1148+1930的星系中心，科学家们确认了一个庞然大物的存在——一个质量约为太阳363亿倍的超级黑洞。这个数字，直接刷新了人类已知黑洞的质量观测纪录。你可能

时间：2026-04-17 22:52

下调降至150万颗！HBM4验证延迟拖累英伟达Rubin GPU量产

下调降至150万颗！HBM4验证延迟拖累英伟达Rubin GPU量产

英伟达Rubin GPU量产进度调整，HBM4验证成关键变量最近供应链传来消息，英伟达备受瞩目的下一代Rubin GPU，量产节奏可能要比预期慢上半拍。根据最新信息，其生产目标已从原先的200万颗下调至150万颗左右。这背后，下一代高带宽内存HBM4的验证进度，成了眼下最主要的制约因素。产能布局

时间：2026-04-17 22:51

天问二号传回首幅地月合影 59万千米外定格为地球月球拍照

天问二号传回首幅地月合影 59万千米外定格为地球月球拍照

天问二号传回地月同框影像，深空探测新阶段迈出坚实一步 7月1日，国家航天局发布了一组颇具深意的影像——天问二号探测器在深邃的太空背景中捕捉到的地月同框画面。这组图像并非普通照片，而是由探测器上高精度的窄视场导航敏感器所拍摄，拍摄时机选在了探测器与地球、与月球距离均约59万千米的特殊位置上。经过科研团

时间：2026-04-17 22:50

外媒：近4000名NASA员工提交离职申请

外媒：近4000名NASA员工提交离职申请

近4000名NASA员工提交离职申请，占比高达两成最近科技圈有个消息挺轰动，据外媒报道，美国国家航空航天局内部正经历一场不小的人事地震：有近4000名员工提交了离职申请。算下来，这差不多占了NASA员工总数的五分之一。关于具体的裁员规模，美国宇航局发言人谢丽尔·华纳在官方声明里给出了更详细的数字

时间：2026-04-17 22:48

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

日榜
周榜
月榜

何小鹏重申“跳过L3”，认为最安全路径是从L2直接到L4

这是谐音梗手游好玩吗这是谐音梗手游核心玩法与趣味性解析

GEN横扫HLE晋级四强！Ruler专访揭秘战术：专注心态享受鏖战

字节跳动近亿元挖来DeepSeek员工？官方回应

星际护卫队上线时间星际护卫队什么时候正式开服

企业党建年度工作总结

POD状态一直CrashLoopBackOff？教你三种容器调试技巧

坚果Pro 2S现已正式发售,购买后是否可以刷机了呢?

龚宇：AI影视浪潮下，爱奇艺的坚守与破局丨高端对话

汗水铸就荣光路！KSCERATO斩获TP世锦赛2025 MVP，FURIA让二追三夺冠

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

极狐S3预告发布：三电可选、宽体运动设计，2026北京车展亮相

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

极狐S3预告发布：三电可选、宽体运动设计，2026北京车展亮相

相关攻略

相关攻略

《炎龙骑士团2》详细全攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

《东吴霸王传2013》详细全关攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

《臭作》之100%全完整攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

《兰斯8》剧情攻略详细篇

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

《英雄坛说》详细全攻略

2015-03-10 12:39

《英雄坛说》详细全攻略

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

偷窃少女的教育方法全攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

无法抵挡小恶魔的诱惑攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

《红色沙漠》贪婪的西斯莱克打法技巧分享

《红色沙漠》贪婪的西斯莱克打法技巧分享发布于 2026-04-17

魔兽世界混乱控制任务怎么过

魔兽世界混乱控制任务怎么过发布于 2026-04-17

《异环》世间奇遇解锁攻略

《异环》世间奇遇解锁攻略发布于 2026-04-17

《异梦残响》第二关思辩通关攻略

《异梦残响》第二关思辩通关攻略发布于 2026-04-17

夯爆了网络梗的含义分享

夯爆了网络梗的含义分享发布于 2026-04-17

《最终幻想14》金曦秘话第三话现已上线！

《最终幻想14》金曦秘话第三话现已上线！发布于 2026-04-17

《异环》随心泥介绍

《异环》随心泥介绍发布于 2026-04-17

航海王热血航线蓝色双子巨塔在哪_东蓝之海的宝藏

航海王热血航线蓝色双子巨塔在哪_东蓝之海的宝藏发布于 2026-04-17

热门格斗手游推荐 2026爆火的格斗游戏分享

热门格斗手游推荐 2026爆火的格斗游戏分享发布于 2026-04-17

xbox one 游戏实际使用记录与经验整理

xbox one 游戏实际使用记录与经验整理发布于 2026-04-17

功夫熊猫神龙大侠武功秘籍玩法详解:全角色招式、连招技巧与隐藏成就攻略

功夫熊猫神龙大侠武功秘籍玩法详解:全角色招式、连招技巧与隐藏成就攻略发布于 2026-04-17

ps4 xbox one 是什么？基础说明与使用场景

ps4 xbox one 是什么？基础说明与使用场景发布于 2026-04-17

《空之轨迹 the 2nd》发售日公布！预约即送前作下载码！

《空之轨迹 the 2nd》发售日公布！预约即送前作下载码！发布于 2026-04-17

识质存在角色设计引争议：AI少女形象被误读，玩家呼吁理性看待艺术表达

识质存在角色设计引争议：AI少女形象被误读，玩家呼吁理性看待艺术表达发布于 2026-04-17

DNF狄瑞吉版本惩戒者怎么加点-狄瑞吉版本DNF惩戒者加点方法

DNF狄瑞吉版本惩戒者怎么加点-狄瑞吉版本DNF惩戒者加点方法发布于 2026-04-17

《魔界战记》之父新川宗平化身“共享制作人”低价接活时薪仅等于应届生

《魔界战记》之父新川宗平化身“共享制作人”低价接活时薪仅等于应届生发布于 2026-04-17

ubuntu安装教程无法使用怎么办？常见问题排查

ubuntu安装教程无法使用怎么办？常见问题排查发布于 2026-04-17

ubuntu安装教程不同版本有什么区别

ubuntu安装教程不同版本有什么区别发布于 2026-04-17

virtualbox网络使用教程：完整操作步骤详解

virtualbox网络使用教程：完整操作步骤详解发布于 2026-04-17

virtualbox网络用不好怎么办？问题排查指南

virtualbox网络用不好怎么办？问题排查指南发布于 2026-04-17

threadx系统教程：从入门到实际使用

threadx系统教程：从入门到实际使用发布于 2026-04-17

bluehost 使用前要了解哪些关键差异

bluehost 使用前要了解哪些关键差异发布于 2026-04-17

bluehost 常见问题与处理办法汇总

bluehost 常见问题与处理办法汇总发布于 2026-04-17

什么是mes系统基础知识整理：新手先看这篇

什么是mes系统基础知识整理：新手先看这篇发布于 2026-04-17

移动硬盘怎么分区比较好?移动硬盘分区步骤图解

移动硬盘怎么分区比较好?移动硬盘分区步骤图解发布于 2026-04-17

米家扫地机器人充电状态有灯亮吗？

米家扫地机器人充电状态有灯亮吗？发布于 2026-04-17

苹果手机15关机键在哪个位置？

苹果手机15关机键在哪个位置？发布于 2026-04-17

苹果手机15关机键需要长按多久？

苹果手机15关机键需要长按多久？发布于 2026-04-17

vscode怎么新建项目-新建项目的详细步骤

vscode怎么新建项目-新建项目的详细步骤发布于 2026-04-17

2026年笔记本电脑CPU性能天梯图：你的处理器排第几?

2026年笔记本电脑CPU性能天梯图：你的处理器排第几? 发布于 2026-04-17

苹果手机15关机键按不灵敏怎么办？

苹果手机15关机键按不灵敏怎么办？发布于 2026-04-17

头戴式耳机怎样关灯

头戴式耳机怎样关灯发布于 2026-04-17

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集