当前位置: 首页
AI资讯
智能体搜索中Harness比检索方法更重要吗

智能体搜索中Harness比检索方法更重要吗

热心网友 时间:2026-05-27
转载

今天我们将深入解读一篇来自普华永道(PwC)美国AI研究团队的重要论文——《Is Grep All You Need? How Agent Harnesses Reshape Agentic Search》。该研究聚焦于企业内部AI工程与智能体(Agent)应用,其核心价值并非简单对比检索算法,而是深入剖析了“运行环境”(Harness)、工具返回机制以及端到端Agent系统的整体性能表现。

论文虽然以长文本检索任务为切入点,探讨了grep与向量检索(Vector Search)在Agent搜索中的效能差异,但其核心论点并非断言“grep优于向量检索”,而是揭示了一个更深刻的洞见:Agent的运行环境会显著重塑并最终决定不同检索方法的效果

图注:论文表1对比了grep和向量检索在不同Agent运行环境下的表现。其核心启示在于:检索器的效能并非孤立存在,而是与Agent的运行环境深度耦合、相互影响。

论文研究的核心问题

本研究旨在回答两个关键问题:第一,在Agent驱动的搜索任务中,传统的词法检索(如grep)与基于语义的向量检索,究竟哪种方法更有效?第二,同一种检索方法,被置于不同的Agent运行环境(Harness)中时,其最终表现是否会产生差异?

这里的“Harness”特指Agent执行任务时所依赖的整套运行框架,包括但不限于:模型可调用的工具集、工具结果的返回方式(是直接注入模型上下文,还是写入文件后再读取)、以及上下文的管理策略等。

因此,这并非一次传统的RAG(检索增强生成)检索器评测。它更侧重于评估端到端Agent的完整工作流:从接收任务、自主调用搜索工具、读取并理解返回结果、组织证据链,直至生成最终答案的全过程表现。

这正是它与普通RAG评估的关键区别。后者通常孤立地评估“检索”环节的精度与召回率;而在Agent系统中,检索效果会受到工具调用逻辑、上下文组织策略以及模型自身搜索决策能力的综合影响。

实验设计

论文选取了LongMemEval数据集中的一个包含116个问题的子集进行实验。LongMemEval是一个专门评估聊天助手长期记忆能力的基准测试,涵盖信息抽取、多轮对话推理、时间线推理、知识更新与拒答等多种能力。

研究者将对话历史存储为本地语料库,让Agent分别使用grep和向量检索两种工具来查找相关信息,并最终比较它们生成答案的准确率。

实验对比了两种类型的运行环境:

  • 自定义运行环境:Chronos,由研究团队自行构建的长对话记忆Agent框架。

  • AI厂商原生CLI环境:包括Claude Code、Codex以及Gemini CLI。

除了运行环境,论文还重点考察了一个工程细节:搜索结果的返回方式

一种是inline(内联)方式,即搜索结果直接作为文本插入到模型的上下文中;另一种是file-based / programmatic(基于文件/编程)方式,即搜索结果先被写入一个文件,模型需要时再通过指令打开并读取该文件。

这一设计至关重要,因为它直接影响了Agent后续处理信息的流程、是否发起后续搜索的决策,并最终改变了grep和向量检索的相对表现。

实验结果与分析

在内联(Inline)模式下,Grep表现更优

实验1的核心是比较在不同运行环境、不同模型及不同工具返回方式下,grep和向量检索的整体准确率。

一个直观的发现是:在inline工具返回模式下,grep的整体表现 consistently 优于向量检索。当搜索结果直接进入模型上下文时,grep在多个运行环境与模型的组合中均取得了更高的准确率。论文摘要也明确指出,在实验1的设置下,grep的准确率整体高于向量检索。

图注:表1数据显示,在inline模式下,grep的表现普遍更佳。

这一结果易于理解。LongMemEval中的任务,很多时候需要检索的是长对话中提及的具体事实(factoid),例如用户明确表达过的偏好、某个具体日期、状态变更或选择。这类信息通常以明确的字面形式存在于原文中。

对于这类任务,只要Agent能够生成或推测出恰当的关键词,grep就能精准地定位到包含该关键词的原文片段。向量检索虽然擅长处理语义相似性,但在长对话场景下面临挑战:许多对话片段的主题可能相似,却未必包含当前问题所需的精确答案。向量检索可能会返回“看起来相关”但并非答案所在的文本,从而引入噪声。

因此,grep在此类任务中的优势并非源于更高级的“智能”,而是其“直接”与“精确”的特性——不做过度语义联想,严格匹配关键词,从而高效提取目标信息。

运行环境(Harness)对结果影响显著

本论文另一个关键结论是:Agent的运行环境对最终性能的影响极为显著。

这一结论同样源于实验1。该实验不仅对比了检索方法,还将它们置于Chronos、Claude Code、Codex和Gemini CLI等不同运行环境中测试。结果表明,相同的检索方法、相同的数据,仅仅更换运行环境,最终的准确率就可能发生显著变化。论文摘要也强调,即使使用相同的对话数据,最终得分也强烈依赖于具体的运行环境和工具调用方式。

这证明运行环境并非一个透明的“外壳”,它会实质性地塑造Agent的搜索能力。原因在于,Agent搜索是一个动态、多步骤的决策过程。模型需要自主决定搜索什么关键词、何时停止搜索、如何解读返回结果。运行环境会影响此过程的每个环节,例如:

  • 工具的功能描述是否清晰易懂;

  • 搜索结果的返回格式是否完整、易解析;

  • 返回内容是否因长度限制被意外截断;

  • 模型能否访问完整的原始上下文以进行推理;

  • 频繁的工具调用记录是否会污染有限的上下文窗口;

  • 基于文件的结果能否被模型可靠地定位、打开并准确读取。

所有这些因素都会累积并影响最终的答案准确率。

基于文件(File-Based)的返回方式使问题复杂化

论文深入比较了inline和file-based两种返回方式的优劣。

inline方式的优点是直接高效:搜索结果即时可见,模型能立即基于资料进行推理。其缺点是当结果过多时会大量占用宝贵的上下文空间,挤占其他必要信息。file-based方式则相反,它先将结果写入文件,模型按需读取,从而节省了主上下文空间,但代价是增加了任务链路的复杂度。

此时,模型的任务不再是简单的“阅读并回答”,而是需要额外执行多个步骤:理解结果被存储的位置、发出指令打开对应文件、从文件中筛选出相关内容、最后整合信息生成答案。这条链路中的任何一环出错(如文件路径错误、读取指令失败、内容筛选偏差),都会导致准确率下降。

这一点从表1中可以看出:无论是grep还是向量检索,只要工具返回方式从inline切换为file-based/programmatic,准确率通常都会出现明显波动。

这对工程实践具有重要启示。我们常将“结果写入文件”视为一种优化上下文长度的策略,但从Agent的视角看,这实际上引入了一系列新的、可能失败的操作步骤。如果运行环境设计不当,模型可能无法稳定地完成“定位-读取-筛选-回答”这一完整链路。

因此,file-based方式并非天然优于inline。它更适合处理海量搜索结果,但前提是Agent的运行环境必须确保文件操作工具的可靠性与易用性。

噪声增加后,结论并非简单线性

实验2探讨了一个更贴近实际场景的问题:当语料中混杂大量无关信息(噪声)时,grep和向量检索的表现将如何演变?

研究者的方法是逐步向语料库中添加无关的对话内容(即干扰项)。这使得Agent面临的场景从相对干净的对话历史,转变为更接近真实生产环境的长期记忆场景——其中既有相关信息,也混杂了大量历史“噪音”。

一种常见的直觉是:语料规模较小时,grep更有效;语料规模变大、噪声增多后,向量检索的语义理解优势会显现。但论文结果显示,情况远非如此简单。

随着无关对话轮次的增加,grep和向量检索的表现并未呈现简单的此消彼长关系。它们的相对优劣受到运行环境、底层模型以及工具调用方式的共同影响,变化模式复杂。

图注:随着无关对话轮次增加,grep和向量检索的表现并非线性变化。在不同运行环境和模型下,二者的优势对比会发生动态变化。

仔细观察表2和表3的详细数据,这种差异性更加明显。在某些完整的实验设置下,grep得分更高;而在另一些组合中,则是向量检索领先。

图注:表2和表3展示了实验2的详细数据。可见,噪声增加后,grep和向量检索的优势并非固定不变,而是随运行环境和模型的变化而转移。这一结果说明,当无关信息变多时,问题不仅在于“是否找到了相关资料”,更在于Agent后续如何决策(是否继续搜索)、如何解读结果、以及如何判断哪些内容真正有用。

论文并未给出一个诸如“语料越大就越该用向量检索”或“grep永远更稳定”的简单结论。它真正强调的是:Agent搜索是一个系统工程问题,需要系统化的设计与评估。

对工程实践的启示

这篇论文对AI应用开发者的直接提醒是:切勿将向量检索视为解决所有搜索问题的唯一方案。

如果你的任务涉及查询日志、配置文件、历史对话记录、用户行为流水、特定错误码或函数名称,那么grep、BM25、正则表达式这类词法检索方法依然极具价值。它们成本低廉、直接高效、可解释性强。在“答案明确存在于原文中”的精确匹配类任务上,其效果可能比复杂的向量检索链路更加稳定可靠。

因此,最佳策略或许不是在grep和向量检索之间做单选题,而是为Agent配备多样化的搜索工具集,使其能够根据任务特性智能选择或组合使用。

例如,在查询明确字段、日期、ID、错误码时,优先使用grep;在查询概念相近但表述多样的语义内容时,启用向量检索;对于关键或模糊的初步结果,可以引入重排序器(Reranker)进行精排,或让模型自行进行二次判断与验证。

此外,Agent运行环境本身也必须作为关键组件进行认真评估与设计。

很多时候,一个Agent表现出的“检索能力不足”,可能并非源于模型能力或检索算法本身,而是由于运行环境未能良好地封装和呈现搜索工具。工具的描述清晰度、返回结果的格式规范性、上下文组织方式、文件读取策略、以及结果截断处理策略,都会对最终效果产生决定性影响。

这也正是论文标题后半句“How Agent Harnesses Reshape Agentic Search”的深意所在。Agent的搜索能力不是一个孤立的单点能力,而是由底层模型、检索算法、工具接口设计以及运行环境共同构成的复杂系统。

核心总结

表面上,这篇论文在比较grep和向量检索;实质上,它深入探讨了Agent搜索的系统设计哲学。

在Agent场景中,检索方法的选择固然重要,但同等重要的是:Agent如何调用搜索工具、以何种方式“看到”搜索结果、如何决定是否继续查询、以及最终如何将碎片化资料整合成连贯答案。

因此,论文的核心启示可以归结为一句话:Agent能否成功找到答案,不仅取决于它使用了grep还是向量检索,更取决于其所在的运行环境是否将“搜索”这一复杂行为进行了恰当、可靠的设计与封装。

参考资料

  • LongMemEval 评测数据集 https://github.com/xiaowu0162/longmemeval

  • 论文《Is Grep All You Need? How Agent Harnesses Reshape Agentic Search》 https://arxiv.org/pdf/2605.15184

来源:https://developer.aliyun.com/article/1737028

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
浪潮信息股价下跌3% 南方基金重仓42万股浮亏84.84万元

浪潮信息股价下跌3% 南方基金重仓42万股浮亏84.84万元

浪潮信息股价下跌3%,报65 28元 股。南方基金旗下南方人工智能主题混合基金重仓该股,一季度末持有42万股,持仓占净值比例4 63%。以今日跌幅估算,该基金单日浮亏约84 84万元。该基金今年以来收益率近30%,近一年收益翻倍,成立以来累计回报超320%。

时间:2026-05-27 20:21
NVIDIA技术如何优化机器人移动与全身控制能力

NVIDIA技术如何优化机器人移动与全身控制能力

欢迎关注首期“NVIDIA机器人研究与开发摘要(R²D²)”。本系列技术博客旨在为开发者和研究人员提供一个窗口,深入洞察NVIDIA各研究实验室在物理AI与机器人领域的最新突破。我们希望通过分享这些前沿探索,与全球社区共同拓展机器人技术的可能性。 构建真正智能、鲁棒的机器人系统,始终面临多重核心挑战

时间:2026-05-27 20:21
芯原股份跌超3%拖累基金 方正富邦重仓浮亏逾65万元

芯原股份跌超3%拖累基金 方正富邦重仓浮亏逾65万元

芯原股份股价下跌3 06%,报258 00元。方正富邦沪港深人工智能50ETF重仓持有8 08万股,单日浮亏约65 81万元。该基金一季度末持仓市值占净值3 94%,为第五大重仓股。公司主营业务为半导体IP授权与芯片定制服务。

时间:2026-05-27 20:21
职高生如何选择人工智能专业方向

职高生如何选择人工智能专业方向

人工智能产业催生大量应用型人才需求。职业教育AI专业侧重实践,课程涵盖基础认知、编程工具、数据处理及典型应用技术,旨在培养胜任具体任务的技术员。选择时需评估学生兴趣与动手能力,考察学校师资与实训条件,明确应用型定位。这为适合的学生提供了顺应产业趋势的就业路径。

时间:2026-05-27 20:18
云端AI助手SkyClaw携六大技能重塑智能生产力

云端AI助手SkyClaw携六大技能重塑智能生产力

想象一下这样的场景:当你结束一天的工作,安心进入梦乡,你的AI助理却在云端不知疲倦地持续“工作”——它自动整理你留下的文件,深度分析未完成的数据集,甚至为你构思下一场重要演讲的幻灯片框架。第二天清晨,你只需打开界面,便能收获它一整夜的高效产出。这不再是科幻电影的想象,而是Skywork推出的云端AI

时间:2026-05-27 20:17
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程