当前位置: 首页
科技数码
清华DeepDive深度搜索Agent实现重大技术突破

清华DeepDive深度搜索Agent实现重大技术突破

热心网友 时间:2025-09-22
转载

为大型语言模型(LLM)引入网页浏览功能,可大幅增强其在复杂现实任务中的搜索能力,成为更强大的智能搜索代理(Agent)。但现有开源LLM在这一领域表现欠佳,主要受限于其长程推理能力不足,以及缺乏高质量训练数据。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

清华大学与东北大学联合研究团队创新性地提出了DeepDive解决方案。该方法巧妙结合知识图谱(KG)的自动数据生成与端到端的多轮强化学习(RL)训练机制,成功打造出具备复杂推理和网络搜索能力的智能代理。

DeepDive研究概览

详细论文

实验数据显示,经过该方案训练的DeepDive-32B模型在BrowseComp测试中取得14.8%的准确率。这一成果有力证明了在深度搜索场景中,工具调用与并行采样的测试优化策略确实有效。

DeepDive性能对比

研究团队还开源了半自动独立同分布深度搜索问答数据集。仅使用这一数据集,DeepDive-32B在BrowseComp上的表现就提升至22.2%,展示了数据质量的关键作用。

数据增强效果

这些创新数据集和训练方法同样提升了GLM-4.5系列开源模型的表现。目前所有DeepDive相关资源(数据集、模型、代码)已全部开源。

技术实现路径

现有开放模型在深度搜索领域与传统闭源LLM存在显著差距。研究团队分析认为,这一差距主要源于两方面瓶颈:高质量训练数据匮乏,以及缺乏高效的多轮强化学习机制。

DeepDive的创新突破正是针对这两大痛点:

  • 采用知识图谱自动生成复杂查询问题
  • 运用端到端多轮RL技术增强模型的长程推理能力

在数据建设方面,研究团队充分利用知识图谱的结构化特性,通过随机游走提取多跳路径,并刻意模糊关键信息,构建出具有挑战性的训练数据。这种"模糊实体"的设计极大提升了数据的训练价值。

知识图谱数据合成流程

在训练方法上,创新性地采用多轮GRPO算法进行端到端RL训练。为提升效率,还引入提前退出机制:当模型出现错误时,立即终止当前训练并给予负面反馈,确保训练数据的纯净度。

多轮RL训练架构

性能评估

研究团队在BrowseComp、BrowseComp-ZH等四个高标准测试集上验证了DeepDive的表现。结果显示:

  • 在复杂搜索任务中明显优于其他开源方案
  • 模型性能会随工具调用预算增加而提升
  • 学到的复杂搜索能力可向下迁移至简单任务

深度搜索基准测试结果

RL训练效果曲线

局限与展望

虽然取得突破,DeepDive仍存在改进空间:

  • 生成数据的难度仍低于顶级测试集
  • 在某些场景可能出现"过度搜索"现象

未来研究方向包括优化RL奖励机制、改进训练策略等。团队相信这些改进将进一步提升模型的深度搜索能力。

来源:https://36kr.com/p/3477371196807808

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
曝一将进军掌机市场推出8英寸天玑旗舰处理器

曝一将进军掌机市场推出8英寸天玑旗舰处理器

在手机市场竞争激烈、内存大涨价的背景下,一加被曝将入局安卓掌机市场 今天,博主 @熊猫很禿然 爆出了一个颇为有趣的消息:一加似乎正在筹备一款8英寸的安卓掌机,而且要用上旗舰级的天玑处理器。这消息一出,立刻在数码圈里激起了不小的水花。 说起来,一加要做掌机,其实并不令人意外。回头看看,一加早就不是手机

时间:2026-04-15 14:15
smart 首款豪华掀背车 精灵#6 EHD 内饰官方图片发布

smart 首款豪华掀背车 精灵#6 EHD 内饰官方图片发布

smart精灵 6 EHD内饰官图发布,北京车展首秀在即 smart近日公布了旗下新车——精灵 6 EHD的内饰官图。这款车被定位为品牌专为中国市场打造的首款豪华掀背轿车,将于4月22日开幕的2026北京国际汽车展上正式亮相,并计划在今年夏季推向市场。 从官方释放的图片来看,新车在座舱氛围的营造上下

时间:2026-04-15 14:10
最后一刻!特朗普同意停火两周,伊朗接受提议!原油跳水、金银猛拉

最后一刻!特朗普同意停火两周,伊朗接受提议!原油跳水、金银猛拉

特朗普突然宣布:暂停对伊轰炸两周,市场巨震 就在“最后期限”步步紧逼的关头,局势出现了戏剧性的转折。美国总统特朗普通过社交平台突然宣布:“我同意在两周内暂停对伊朗的轰炸和袭击。” “我们收到了伊朗提出的十点建议,并认为这是谈判的可行基础。美国和伊朗几乎就过去争论的各个要点达成了共识,但两周的时间将使

时间:2026-04-15 14:08
摩托罗拉海外发布 2026 款 moto g stylus 手机、moto pad 平板 主打创作与生产力

摩托罗拉海外发布 2026 款 moto g stylus 手机、moto pad 平板 主打创作与生产力

摩托罗拉海外新作:2026款moto g stylus手机与moto pad平板亮相 最近,摩托罗拉在海外市场正式揭晓了两款主打创作与生产力的新设备——2026款的moto g stylus手机和moto pad平板。它们瞄准的正是那些需要随时随地记录灵感、处理工作的用户群体。 下面,我们来详细了解

时间:2026-04-15 14:08
OpenAI推出网络安全专用AI模型GPT-5.4-Cyber,对标Claude Mythos

OpenAI推出网络安全专用AI模型GPT-5.4-Cyber,对标Claude Mythos

OpenAI向网络安全领域开放专用AI模型,强化数字防线 4月15日消息,人工智能领域的动向再次引发关注。OpenAI公司于昨日(4月14日)发布了一项重要公告,宣布扩大其“网络防御可信访问计划”(TAC)。这项举措的核心,是向数千名网络安全专家及数百个专业团队开放一个名为GPT-5 4-Cyber

时间:2026-04-15 14:07
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程