智能体搜索中Harness比检索方法更重要吗

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

智能体搜索中Harness比检索方法更重要吗

热心网友时间：2026-05-27

转载

今天我们将深入解读一篇来自普华永道（PwC）美国AI研究团队的重要论文——《Is Grep All You Need? How Agent Harnesses Reshape Agentic Search》。该研究聚焦于企业内部AI工程与智能体（Agent）应用，其核心价值并非简单对比检索算法，而是深入剖析了“运行环境”（Harness）、工具返回机制以及端到端Agent系统的整体性能表现。

论文虽然以长文本检索任务为切入点，探讨了grep与向量检索（Vector Search）在Agent搜索中的效能差异，但其核心论点并非断言“grep优于向量检索”，而是揭示了一个更深刻的洞见：Agent的运行环境会显著重塑并最终决定不同检索方法的效果。

图注：论文表1对比了grep和向量检索在不同Agent运行环境下的表现。其核心启示在于：检索器的效能并非孤立存在，而是与Agent的运行环境深度耦合、相互影响。

论文研究的核心问题

本研究旨在回答两个关键问题：第一，在Agent驱动的搜索任务中，传统的词法检索（如grep）与基于语义的向量检索，究竟哪种方法更有效？第二，同一种检索方法，被置于不同的Agent运行环境（Harness）中时，其最终表现是否会产生差异？

这里的“Harness”特指Agent执行任务时所依赖的整套运行框架，包括但不限于：模型可调用的工具集、工具结果的返回方式（是直接注入模型上下文，还是写入文件后再读取）、以及上下文的管理策略等。

因此，这并非一次传统的RAG（检索增强生成）检索器评测。它更侧重于评估端到端Agent的完整工作流：从接收任务、自主调用搜索工具、读取并理解返回结果、组织证据链，直至生成最终答案的全过程表现。

这正是它与普通RAG评估的关键区别。后者通常孤立地评估“检索”环节的精度与召回率；而在Agent系统中，检索效果会受到工具调用逻辑、上下文组织策略以及模型自身搜索决策能力的综合影响。

实验设计

论文选取了LongMemEval数据集中的一个包含116个问题的子集进行实验。LongMemEval是一个专门评估聊天助手长期记忆能力的基准测试，涵盖信息抽取、多轮对话推理、时间线推理、知识更新与拒答等多种能力。

研究者将对话历史存储为本地语料库，让Agent分别使用grep和向量检索两种工具来查找相关信息，并最终比较它们生成答案的准确率。

实验对比了两种类型的运行环境：

自定义运行环境：Chronos，由研究团队自行构建的长对话记忆Agent框架。
AI厂商原生CLI环境：包括Claude Code、Codex以及Gemini CLI。

除了运行环境，论文还重点考察了一个工程细节：搜索结果的返回方式。

一种是inline（内联）方式，即搜索结果直接作为文本插入到模型的上下文中；另一种是file-based / programmatic（基于文件/编程）方式，即搜索结果先被写入一个文件，模型需要时再通过指令打开并读取该文件。

这一设计至关重要，因为它直接影响了Agent后续处理信息的流程、是否发起后续搜索的决策，并最终改变了grep和向量检索的相对表现。

实验结果与分析

在内联（Inline）模式下，Grep表现更优

实验1的核心是比较在不同运行环境、不同模型及不同工具返回方式下，grep和向量检索的整体准确率。

一个直观的发现是：在inline工具返回模式下，grep的整体表现 consistently 优于向量检索。当搜索结果直接进入模型上下文时，grep在多个运行环境与模型的组合中均取得了更高的准确率。论文摘要也明确指出，在实验1的设置下，grep的准确率整体高于向量检索。

图注：表1数据显示，在inline模式下，grep的表现普遍更佳。

这一结果易于理解。LongMemEval中的任务，很多时候需要检索的是长对话中提及的具体事实（factoid），例如用户明确表达过的偏好、某个具体日期、状态变更或选择。这类信息通常以明确的字面形式存在于原文中。

对于这类任务，只要Agent能够生成或推测出恰当的关键词，grep就能精准地定位到包含该关键词的原文片段。向量检索虽然擅长处理语义相似性，但在长对话场景下面临挑战：许多对话片段的主题可能相似，却未必包含当前问题所需的精确答案。向量检索可能会返回“看起来相关”但并非答案所在的文本，从而引入噪声。

因此，grep在此类任务中的优势并非源于更高级的“智能”，而是其“直接”与“精确”的特性——不做过度语义联想，严格匹配关键词，从而高效提取目标信息。

运行环境（Harness）对结果影响显著

本论文另一个关键结论是：Agent的运行环境对最终性能的影响极为显著。

这一结论同样源于实验1。该实验不仅对比了检索方法，还将它们置于Chronos、Claude Code、Codex和Gemini CLI等不同运行环境中测试。结果表明，相同的检索方法、相同的数据，仅仅更换运行环境，最终的准确率就可能发生显著变化。论文摘要也强调，即使使用相同的对话数据，最终得分也强烈依赖于具体的运行环境和工具调用方式。

这证明运行环境并非一个透明的“外壳”，它会实质性地塑造Agent的搜索能力。原因在于，Agent搜索是一个动态、多步骤的决策过程。模型需要自主决定搜索什么关键词、何时停止搜索、如何解读返回结果。运行环境会影响此过程的每个环节，例如：

工具的功能描述是否清晰易懂；
搜索结果的返回格式是否完整、易解析；
返回内容是否因长度限制被意外截断；
模型能否访问完整的原始上下文以进行推理；
频繁的工具调用记录是否会污染有限的上下文窗口；
基于文件的结果能否被模型可靠地定位、打开并准确读取。

所有这些因素都会累积并影响最终的答案准确率。

基于文件（File-Based）的返回方式使问题复杂化

论文深入比较了inline和file-based两种返回方式的优劣。

inline方式的优点是直接高效：搜索结果即时可见，模型能立即基于资料进行推理。其缺点是当结果过多时会大量占用宝贵的上下文空间，挤占其他必要信息。file-based方式则相反，它先将结果写入文件，模型按需读取，从而节省了主上下文空间，但代价是增加了任务链路的复杂度。

此时，模型的任务不再是简单的“阅读并回答”，而是需要额外执行多个步骤：理解结果被存储的位置、发出指令打开对应文件、从文件中筛选出相关内容、最后整合信息生成答案。这条链路中的任何一环出错（如文件路径错误、读取指令失败、内容筛选偏差），都会导致准确率下降。

这一点从表1中可以看出：无论是grep还是向量检索，只要工具返回方式从inline切换为file-based/programmatic，准确率通常都会出现明显波动。

这对工程实践具有重要启示。我们常将“结果写入文件”视为一种优化上下文长度的策略，但从Agent的视角看，这实际上引入了一系列新的、可能失败的操作步骤。如果运行环境设计不当，模型可能无法稳定地完成“定位-读取-筛选-回答”这一完整链路。

因此，file-based方式并非天然优于inline。它更适合处理海量搜索结果，但前提是Agent的运行环境必须确保文件操作工具的可靠性与易用性。

噪声增加后，结论并非简单线性

实验2探讨了一个更贴近实际场景的问题：当语料中混杂大量无关信息（噪声）时，grep和向量检索的表现将如何演变？

研究者的方法是逐步向语料库中添加无关的对话内容（即干扰项）。这使得Agent面临的场景从相对干净的对话历史，转变为更接近真实生产环境的长期记忆场景——其中既有相关信息，也混杂了大量历史“噪音”。

一种常见的直觉是：语料规模较小时，grep更有效；语料规模变大、噪声增多后，向量检索的语义理解优势会显现。但论文结果显示，情况远非如此简单。

随着无关对话轮次的增加，grep和向量检索的表现并未呈现简单的此消彼长关系。它们的相对优劣受到运行环境、底层模型以及工具调用方式的共同影响，变化模式复杂。

图注：随着无关对话轮次增加，grep和向量检索的表现并非线性变化。在不同运行环境和模型下，二者的优势对比会发生动态变化。

仔细观察表2和表3的详细数据，这种差异性更加明显。在某些完整的实验设置下，grep得分更高；而在另一些组合中，则是向量检索领先。

图注：表2和表3展示了实验2的详细数据。可见，噪声增加后，grep和向量检索的优势并非固定不变，而是随运行环境和模型的变化而转移。这一结果说明，当无关信息变多时，问题不仅在于“是否找到了相关资料”，更在于Agent后续如何决策（是否继续搜索）、如何解读结果、以及如何判断哪些内容真正有用。

论文并未给出一个诸如“语料越大就越该用向量检索”或“grep永远更稳定”的简单结论。它真正强调的是：Agent搜索是一个系统工程问题，需要系统化的设计与评估。

对工程实践的启示

这篇论文对AI应用开发者的直接提醒是：切勿将向量检索视为解决所有搜索问题的唯一方案。

如果你的任务涉及查询日志、配置文件、历史对话记录、用户行为流水、特定错误码或函数名称，那么grep、BM25、正则表达式这类词法检索方法依然极具价值。它们成本低廉、直接高效、可解释性强。在“答案明确存在于原文中”的精确匹配类任务上，其效果可能比复杂的向量检索链路更加稳定可靠。

因此，最佳策略或许不是在grep和向量检索之间做单选题，而是为Agent配备多样化的搜索工具集，使其能够根据任务特性智能选择或组合使用。

例如，在查询明确字段、日期、ID、错误码时，优先使用grep；在查询概念相近但表述多样的语义内容时，启用向量检索；对于关键或模糊的初步结果，可以引入重排序器（Reranker）进行精排，或让模型自行进行二次判断与验证。

此外，Agent运行环境本身也必须作为关键组件进行认真评估与设计。

很多时候，一个Agent表现出的“检索能力不足”，可能并非源于模型能力或检索算法本身，而是由于运行环境未能良好地封装和呈现搜索工具。工具的描述清晰度、返回结果的格式规范性、上下文组织方式、文件读取策略、以及结果截断处理策略，都会对最终效果产生决定性影响。

这也正是论文标题后半句“How Agent Harnesses Reshape Agentic Search”的深意所在。Agent的搜索能力不是一个孤立的单点能力，而是由底层模型、检索算法、工具接口设计以及运行环境共同构成的复杂系统。

核心总结

表面上，这篇论文在比较grep和向量检索；实质上，它深入探讨了Agent搜索的系统设计哲学。

在Agent场景中，检索方法的选择固然重要，但同等重要的是：Agent如何调用搜索工具、以何种方式“看到”搜索结果、如何决定是否继续查询、以及最终如何将碎片化资料整合成连贯答案。

因此，论文的核心启示可以归结为一句话：Agent能否成功找到答案，不仅取决于它使用了grep还是向量检索，更取决于其所在的运行环境是否将“搜索”这一复杂行为进行了恰当、可靠的设计与封装。

参考资料

LongMemEval 评测数据集 https://github.com/xiaowu0162/longmemeval
论文《Is Grep All You Need? How Agent Harnesses Reshape Agentic Search》 https://arxiv.org/pdf/2605.15184

来源:https://developer.aliyun.com/article/1737028

上一篇：阿里企业邮箱价格表：免费版与付费版年费详解

下一篇： Claude官方技能推荐：7个最实用的Code插件安装指南