数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

清华DeepDive深度搜索Agent实现重大技术突破

清华DeepDive深度搜索Agent实现重大技术突破

热心网友时间：2025-09-22

转载

为大语言模型（LLM）配备浏览工具，能够显著提升其作为深度搜索智能体（Agent）解决复杂现实世界任务的潜力。然而，由于使用浏览工具进行长程推理的能力有限，且缺乏足够难度的监督数据，开源 LLM

为大型语言模型(LLM)引入网页浏览功能，可大幅增强其在复杂现实任务中的搜索能力，成为更强大的智能搜索代理(Agent)。但现有开源LLM在这一领域表现欠佳，主要受限于其长程推理能力不足，以及缺乏高质量训练数据。

清华大学与东北大学联合研究团队创新性地提出了DeepDive解决方案。该方法巧妙结合知识图谱(KG)的自动数据生成与端到端的多轮强化学习(RL)训练机制，成功打造出具备复杂推理和网络搜索能力的智能代理。

DeepDive研究概览

实验数据显示，经过该方案训练的DeepDive-32B模型在BrowseComp测试中取得14.8%的准确率。这一成果有力证明了在深度搜索场景中，工具调用与并行采样的测试优化策略确实有效。

DeepDive性能对比

研究团队还开源了半自动独立同分布深度搜索问答数据集。仅使用这一数据集，DeepDive-32B在BrowseComp上的表现就提升至22.2%，展示了数据质量的关键作用。

数据增强效果

这些创新数据集和训练方法同样提升了GLM-4.5系列开源模型的表现。目前所有DeepDive相关资源(数据集、模型、代码)已全部开源。

技术实现路径

现有开放模型在深度搜索领域与传统闭源LLM存在显著差距。研究团队分析认为，这一差距主要源于两方面瓶颈：高质量训练数据匮乏，以及缺乏高效的多轮强化学习机制。

DeepDive的创新突破正是针对这两大痛点：

采用知识图谱自动生成复杂查询问题
运用端到端多轮RL技术增强模型的长程推理能力

在数据建设方面，研究团队充分利用知识图谱的结构化特性，通过随机游走提取多跳路径，并刻意模糊关键信息，构建出具有挑战性的训练数据。这种"模糊实体"的设计极大提升了数据的训练价值。

知识图谱数据合成流程

在训练方法上，创新性地采用多轮GRPO算法进行端到端RL训练。为提升效率，还引入提前退出机制：当模型出现错误时，立即终止当前训练并给予负面反馈，确保训练数据的纯净度。

多轮RL训练架构

性能评估

研究团队在BrowseComp、BrowseComp-ZH等四个高标准测试集上验证了DeepDive的表现。结果显示：

在复杂搜索任务中明显优于其他开源方案
模型性能会随工具调用预算增加而提升
学到的复杂搜索能力可向下迁移至简单任务

深度搜索基准测试结果

RL训练效果曲线

局限与展望

虽然取得突破，DeepDive仍存在改进空间：

生成数据的难度仍低于顶级测试集
在某些场景可能出现"过度搜索"现象

未来研究方向包括优化RL奖励机制、改进训练策略等。团队相信这些改进将进一步提升模型的深度搜索能力。

来源:https://36kr.com/p/3477371196807808

上一篇： watchOS 26正式版上线：10大免费新功能提升Apple Watch体验

下一篇：汕头珠宝企业IPO冲刺：年营收64亿，1500家门店布局亮眼

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章

小米回应新车未上市被曝起火实为SkyNomad遭AI污染

小米回应新车未上市被曝起火实为SkyNomad遭AI污染

小米新系列尚未正式发布，搜索“SkyNomad”即出现“起火”“事故”等联想词及疑似AI生成的“车祸”视频。小米官方紧急辟谣，已收集相关证据并与平台沟通，指出这是利用AI技术批量造谣的有组织的舆论攻击行为。

时间：2026-07-11 12:56

沃尔玛沃集鲜推出药食同源系列新品

沃尔玛沃集鲜推出药食同源系列新品

沃尔玛自有品牌沃集鲜推出“药食同源”系列，覆盖饮品、烘焙、零食等品类，分日常与衍生两大产品梯队，联合老字号拓展消费场景，同时加速全国门店升级，以商品力与门店网络推动全渠道增长。

时间：2026-07-11 12:55

聆思科技获近5亿元B轮融资

聆思科技获近5亿元B轮融资

聆思科技完成近5亿元B轮融资，由安徽与合肥国资领投。资金将用于新一代端侧大模型AI推理芯片研发，从感知模型升级至认知大模型。首颗Nebula系列预计2026年底推出。公司已推出23款芯片，累计出货超1 5亿片，广泛用于家居家电、教育办公等领域。

时间：2026-07-11 12:55

北通鲲鹏70异环联名手柄上市安魂曲薄荷双色699元

北通鲲鹏70异环联名手柄上市安魂曲薄荷双色699元

北通鲲鹏70《异环》联名款手柄上市，售价699元，提供安魂曲与薄荷双色。礼盒内含定制手柄及周边，前12000套赠游戏道具兑换卡。手柄搭载AI触觉反馈肩键、双切扳机、阻尼可调摇杆，支持星闪2000Hz回报率，兼容PC、NS、手机和车机。

时间：2026-07-11 12:54

全球电动汽车需求持续增长趋势研究机构报告

全球电动汽车需求持续增长趋势研究机构报告

6月全球电动汽车注册量连续第四个月增长，达200万辆，同比增7%。欧洲市场表现抢眼，注册量飙升31%，北美受税收政策影响下滑13%。德国车企面临挑战，保时捷上半年销量降16%，大众营业利润跌54%。

时间：2026-07-11 12:54

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

热门数据榜

永劫无间成品账号安全购买渠道推荐与选购指南

攻城掠地最新通关技巧五珍六醒助你轻松刷图

蜡笔小新风格手游推荐类似游戏合集

我的世界巨人怎么生成详细步骤攻略教程

崩坏因缘精灵公测时间与开服日期最新公布

年热门三国游戏推荐新游与经典大作合集

LOL账号价值准确查询与判断指南

攻城掠地最强攻略与小技巧大全

时空猎人觉醒决斗场玩法与实战技巧全攻略

无期迷途怦怦电波放送中活动玩法与详情指南

永劫无间成品账号安全购买渠道推荐与选购指南

攻城掠地最新通关技巧五珍六醒助你轻松刷图

蜡笔小新风格手游推荐类似游戏合集

我的世界巨人怎么生成详细步骤攻略教程

崩坏因缘精灵公测时间与开服日期最新公布

年热门三国游戏推荐新游与经典大作合集

LOL账号价值准确查询与判断指南

攻城掠地最强攻略与小技巧大全

时空猎人觉醒决斗场玩法与实战技巧全攻略

无期迷途怦怦电波放送中活动玩法与详情指南

永劫无间成品账号安全购买渠道推荐与选购指南

攻城掠地最新通关技巧五珍六醒助你轻松刷图

蜡笔小新风格手游推荐类似游戏合集

我的世界巨人怎么生成详细步骤攻略教程

崩坏因缘精灵公测时间与开服日期最新公布

年热门三国游戏推荐新游与经典大作合集

LOL账号价值准确查询与判断指南

攻城掠地最强攻略与小技巧大全

时空猎人觉醒决斗场玩法与实战技巧全攻略

无期迷途怦怦电波放送中活动玩法与详情指南

相关攻略

相关攻略

小米回应新车未上市被曝起火实为SkyNomad遭AI污染

2026-07-11 12:56

小米回应新车未上市被曝起火实为SkyNomad遭AI污染

沃尔玛沃集鲜推出药食同源系列新品

2026-07-11 12:55

沃尔玛沃集鲜推出药食同源系列新品

聆思科技获近5亿元B轮融资

2026-07-11 12:55

聆思科技获近5亿元B轮融资

北通鲲鹏70异环联名手柄上市安魂曲薄荷双色699元

2026-07-11 12:54

北通鲲鹏70异环联名手柄上市安魂曲薄荷双色699元

全球电动汽车需求持续增长趋势研究机构报告

2026-07-11 12:54

全球电动汽车需求持续增长趋势研究机构报告

AI看懂地图却误解双方心意

2026-07-11 12:54

AI看懂地图却误解双方心意

比亚迪腾势N8官图发布大五座纯电SUV搭载第二代刀片电池

2026-07-11 12:54

比亚迪腾势N8官图发布大五座纯电SUV搭载第二代刀片电池

小米澎程N90官方图片正式亮相

2026-07-11 12:53

小米澎程N90官方图片正式亮相

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

三角洲行动2026年7月10日最新每日密码

三角洲行动2026年7月10日最新每日密码发布于 2026-07-11

我的世界灵感模组合成表大全

我的世界灵感模组合成表大全发布于 2026-07-11

花神祈愿活动正式上线时序轮转群芳齐聚

花神祈愿活动正式上线时序轮转群芳齐聚发布于 2026-07-11

代号撤离正式服上线评测与玩法体验全面分析

代号撤离正式服上线评测与玩法体验全面分析发布于 2026-07-11

年反应力训练游戏推荐：提升手眼协调与专注力

年反应力训练游戏推荐：提升手眼协调与专注力发布于 2026-07-11

宣行琮机制拆解与实战配队完整攻略

宣行琮机制拆解与实战配队完整攻略发布于 2026-07-11

五星大饭店的实用忠告

五星大饭店的实用忠告发布于 2026-07-11

暗区突围账号估价平台推荐与交易价格参考

暗区突围账号估价平台推荐与交易价格参考发布于 2026-07-11

Win11系统截图自动备份到OneDrive的完整关闭方法教程

Win11系统截图自动备份到OneDrive的完整关闭方法教程发布于 2026-07-11

Win11关闭文件资源管理器多标签页分组功能

Win11关闭文件资源管理器多标签页分组功能发布于 2026-07-11

Win11蓝牙开关消失驱动重装无效的解决方法

Win11蓝牙开关消失驱动重装无效的解决方法发布于 2026-07-11

Win11鼠标移到右下角不显示桌面的设置方法

Win11鼠标移到右下角不显示桌面的设置方法发布于 2026-07-11

美的洗衣机烘干功能滤网清洁方法

美的洗衣机烘干功能滤网清洁方法发布于 2026-07-11

万级奔驰纯电GLC高端家用SUV值得入手

万级奔驰纯电GLC高端家用SUV值得入手发布于 2026-07-11

移动硬盘供电不足导致无法识别的解决方法

移动硬盘供电不足导致无法识别的解决方法发布于 2026-07-11

漫步者蓝牙耳机需不需要下载专用APP

漫步者蓝牙耳机需不需要下载专用APP 发布于 2026-07-11

热门话题

可灵AI使用教程_可灵视频生成指南_AI短片创作技巧

可灵AI使用教程_可灵视频生成指南_AI短片创作技巧

海螺AI使用教程_MiniMax视频音乐生成指南_海螺AI实战技巧

海螺AI使用教程_MiniMax视频音乐生成指南_海螺AI实战技巧

讯飞星火使用教程_星火大模型功能解析_办公写作学习指南

讯飞星火使用教程_星火大模型功能解析_办公写作学习指南

文小言使用教程_百度AI助手功能解析_文心智能体使用指南

文小言使用教程_百度AI助手功能解析_文心智能体使用指南

智谱清言使用教程_GLM大模型能力解析_清言AI实用指南

智谱清言使用教程_GLM大模型能力解析_清言AI实用指南

天工AI使用教程_天工搜索写作指南_昆仑万维AI助手解析

天工AI使用教程_天工搜索写作指南_昆仑万维AI助手解析

腾讯元宝使用教程_腾讯元宝AI功能解析_搜索写作智能体指南

腾讯元宝使用教程_腾讯元宝AI功能解析_搜索写作智能体指南

即梦AI使用教程_即梦图片视频生成指南_提示词与创作技巧

即梦AI使用教程_即梦图片视频生成指南_提示词与创作技巧

Microsoft Copilot使用教程_Copilot办公与编程指南_微软AI助手实战

Microsoft Copilot使用教程_Copilot办公与编程指南_微软AI助手实战