清华DeepDive深度搜索Agent实现重大技术突破
为大型语言模型(LLM)引入网页浏览功能,可大幅增强其在复杂现实任务中的搜索能力,成为更强大的智能搜索代理(Agent)。但现有开源LLM在这一领域表现欠佳,主要受限于其长程推理能力不足,以及缺乏高质量训练数据。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
清华大学与东北大学联合研究团队创新性地提出了DeepDive解决方案。该方法巧妙结合知识图谱(KG)的自动数据生成与端到端的多轮强化学习(RL)训练机制,成功打造出具备复杂推理和网络搜索能力的智能代理。

实验数据显示,经过该方案训练的DeepDive-32B模型在BrowseComp测试中取得14.8%的准确率。这一成果有力证明了在深度搜索场景中,工具调用与并行采样的测试优化策略确实有效。

研究团队还开源了半自动独立同分布深度搜索问答数据集。仅使用这一数据集,DeepDive-32B在BrowseComp上的表现就提升至22.2%,展示了数据质量的关键作用。

这些创新数据集和训练方法同样提升了GLM-4.5系列开源模型的表现。目前所有DeepDive相关资源(数据集、模型、代码)已全部开源。
技术实现路径
现有开放模型在深度搜索领域与传统闭源LLM存在显著差距。研究团队分析认为,这一差距主要源于两方面瓶颈:高质量训练数据匮乏,以及缺乏高效的多轮强化学习机制。
DeepDive的创新突破正是针对这两大痛点:
- 采用知识图谱自动生成复杂查询问题
- 运用端到端多轮RL技术增强模型的长程推理能力
在数据建设方面,研究团队充分利用知识图谱的结构化特性,通过随机游走提取多跳路径,并刻意模糊关键信息,构建出具有挑战性的训练数据。这种"模糊实体"的设计极大提升了数据的训练价值。

在训练方法上,创新性地采用多轮GRPO算法进行端到端RL训练。为提升效率,还引入提前退出机制:当模型出现错误时,立即终止当前训练并给予负面反馈,确保训练数据的纯净度。

性能评估
研究团队在BrowseComp、BrowseComp-ZH等四个高标准测试集上验证了DeepDive的表现。结果显示:
- 在复杂搜索任务中明显优于其他开源方案
- 模型性能会随工具调用预算增加而提升
- 学到的复杂搜索能力可向下迁移至简单任务


局限与展望
虽然取得突破,DeepDive仍存在改进空间:
- 生成数据的难度仍低于顶级测试集
- 在某些场景可能出现"过度搜索"现象
未来研究方向包括优化RL奖励机制、改进训练策略等。团队相信这些改进将进一步提升模型的深度搜索能力。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
曝一将进军掌机市场推出8英寸天玑旗舰处理器
在手机市场竞争激烈、内存大涨价的背景下,一加被曝将入局安卓掌机市场 今天,博主 @熊猫很禿然 爆出了一个颇为有趣的消息:一加似乎正在筹备一款8英寸的安卓掌机,而且要用上旗舰级的天玑处理器。这消息一出,立刻在数码圈里激起了不小的水花。 说起来,一加要做掌机,其实并不令人意外。回头看看,一加早就不是手机
smart 首款豪华掀背车 精灵#6 EHD 内饰官方图片发布
smart精灵 6 EHD内饰官图发布,北京车展首秀在即 smart近日公布了旗下新车——精灵 6 EHD的内饰官图。这款车被定位为品牌专为中国市场打造的首款豪华掀背轿车,将于4月22日开幕的2026北京国际汽车展上正式亮相,并计划在今年夏季推向市场。 从官方释放的图片来看,新车在座舱氛围的营造上下
最后一刻!特朗普同意停火两周,伊朗接受提议!原油跳水、金银猛拉
特朗普突然宣布:暂停对伊轰炸两周,市场巨震 就在“最后期限”步步紧逼的关头,局势出现了戏剧性的转折。美国总统特朗普通过社交平台突然宣布:“我同意在两周内暂停对伊朗的轰炸和袭击。” “我们收到了伊朗提出的十点建议,并认为这是谈判的可行基础。美国和伊朗几乎就过去争论的各个要点达成了共识,但两周的时间将使
摩托罗拉海外发布 2026 款 moto g stylus 手机、moto pad 平板 主打创作与生产力
摩托罗拉海外新作:2026款moto g stylus手机与moto pad平板亮相 最近,摩托罗拉在海外市场正式揭晓了两款主打创作与生产力的新设备——2026款的moto g stylus手机和moto pad平板。它们瞄准的正是那些需要随时随地记录灵感、处理工作的用户群体。 下面,我们来详细了解
OpenAI推出网络安全专用AI模型GPT-5.4-Cyber,对标Claude Mythos
OpenAI向网络安全领域开放专用AI模型,强化数字防线 4月15日消息,人工智能领域的动向再次引发关注。OpenAI公司于昨日(4月14日)发布了一项重要公告,宣布扩大其“网络防御可信访问计划”(TAC)。这项举措的核心,是向数千名网络安全专家及数百个专业团队开放一个名为GPT-5 4-Cyber
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

