中国人民大学AI团队新方案：告别低效查询，搜索准确率提升25%

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

中国人民大学AI团队新方案：告别低效查询，搜索准确率提升25%

热心网友时间：2026-03-31

转载

来自中国人民大学的研究团队在2026年1月向学术界提交了一项关于AI搜索代理优化的重要研究成果。这篇论文将在2026年7月20-24日于澳大利亚墨尔本举行的第49届ACM SIGIR信息检索研究与发展国际会议上正式发表。感兴趣的读者可以通过arXiv预印本平台的编号2601.04888查阅完整论文内容。

假设你正在网上搜索一个复杂问题的答案，比如"1955年电影《安纳波利斯的故事》中那位出生于1914年2月15日的美国演员是谁？"你的AI助手开始搜索，第一次它查询"凯文·麦卡锡的出生日期"，结果却找到了一位美国政客的信息，而不是你要找的那位演员。这个小小的失误，就像走错了一个路口，导致整个搜索旅程偏离了正确方向，最终给出了错误答案。

这正是当前AI搜索系统面临的核心困境。尽管这些系统能够自动调用搜索引擎、处理复杂问题，但它们生成的中间搜索查询往往不够精准。一个关键词的遗漏、一个限定条件的缺失，都可能让搜索结果偏离预期，进而导致后续推理过程全部走偏。更令人担忧的是，现有的AI训练方法主要关注最终答案是否正确，却忽略了搜索过程中每一步查询的质量。这就好比只在意学生考试成绩，却不关心他们做题时的思考过程是否合理。

人大团队开发的SmartSearch框架正是为了解决这一痛点。研究团队的核心洞察是：与其事后修正错误答案，不如从源头上优化每一次搜索查询的质量。他们构建了一套完整的"查询质量评估-优化-学习"循环系统，让AI搜索代理在训练过程中就学会如何提出更精准的问题。

这套系统的工作原理可以用一个熟悉的场景来理解。当你向图书管理员询问一本书的位置时，如果你只说"我要找一本关于凯文的书"，管理员可能会困惑——是哪个凯文？是传记类、小说类还是其他？但如果你说"我要找演员凯文·麦卡锡的传记，他出生于1914年"，管理员就能迅速帮你定位。SmartSearch正是在教AI搜索代理学会后者那样的提问方式。

研究团队设计了两个相互配合的核心机制。第一个是"过程奖励"机制，它为每一次搜索查询打分并提供改进建议。这个机制包含两个互补的评估维度。其中一个维度通过规则来检查查询是否与之前的搜索重复，避免AI反复查询相同的内容浪费时间。另一个维度则通过模型来判断查询意图是否必要、检索结果是否包含了期望的答案。当AI提出一个搜索查询后，这套评估系统会给出0分或1分的评价，同时生成文字反馈，详细解释该查询存在的问题。

第二个核心机制是"查询优化"。当系统识别出某个搜索查询质量不佳时，会根据评估反馈对其进行改进，然后让AI从改进后的查询点重新开始搜索。回到刚才的例子，当AI查询"凯文·麦卡锡的出生日期"却得到政客信息时，系统会提示"查询意图是必要的，但检索结果没有包含演员凯文·麦卡锡的信息，而是找到了政客"。基于这个反馈，查询会被优化为"演员凯文·麦卡锡的出生日期"，加上"演员"这个关键限定词后，搜索引擎就能返回正确的信息了。

为了让AI真正内化这种优化能力，研究团队没有采用一步到位的训练方式，而是设计了一个循序渐进的三阶段学习框架。这个框架的设计理念类似于学习驾驶的过程：先跟着教练学习基本操作，再在陪练指导下练习复杂路况，最后独立驾驶并不断积累经验。

第一阶段称为"筛选式模仿学习"。在这个阶段，研究团队精心筛选了一批高质量的示范数据。这些数据不仅要求最终答案正确，更重要的是整个搜索过程中的每一个查询都必须质量优良。通过过程奖励机制，团队过滤掉了那些虽然最终答案正确、但搜索过程存在低质量查询的样本。只保留那些从头到尾每一步查询都精准有效的示范。AI模型在这些精选样本上进行训练，就像学生跟着优秀教师的标准示范来学习。这个阶段虽然只用了原始数据的60%，但模型的性能反而显著提升，证明了高质量过程示范的重要性。

第二阶段是"查询生成对齐"。这个阶段的核心是让AI学会区分好查询和坏查询。研究团队采用了一种对比学习的方法：让AI先生成一个完整的搜索过程，然后系统会识别出其中质量较低的查询，并使用查询优化机制生成改进版本。这样就产生了多个不同的搜索轨迹，它们在某些查询上存在差异。接下来，系统会根据两个标准来判断哪个轨迹更优：如果最终答案都正确，那么包含低质量查询更少的轨迹更好；如果最终答案都错误，那么包含高质量查询更多的轨迹更好。AI通过不断比较这些轨迹对，逐渐学会了什么样的查询策略更有效。这个阶段的训练方式，让AI不仅知道"应该怎么做"，更明白"为什么这样做更好"。

第三阶段是"查询感知策略优化"。经过前两个阶段的学习，AI已经掌握了基本的查询优化能力，但还需要在更具挑战性的问题上磨练。研究团队挑选了一批经过多次尝试仍未解决的难题，让AI在这些问题上继续训练。这个阶段采用了强化学习的方法，但与传统做法不同，训练过程中融入了查询优化机制。当AI生成一个搜索轨迹后，系统不是简单地生成多个独立轨迹，而是会识别出当前轨迹中的低质量查询，进行优化，然后从优化点继续生成新的搜索路径。这样既保证了训练样本的多样性，又确保优化重点始终聚焦在查询质量上。

在奖励设计上，研究团队也做了精心考量。传统的强化学习主要根据最终答案是否正确来给奖励，但SmartSearch的奖励函数同时考虑了搜索过程中每个查询的质量。具体来说，如果AI给出了正确答案，系统会根据搜索过程中低质量查询的数量适当降低奖励分数，激励AI用更少、更精准的查询达成目标。即使AI没能给出正确答案，系统也会根据其生成的高质量查询数量给予部分奖励，鼓励AI至少朝着正确方向探索。这种奖励设计避免了AI为了获得高分而忽视搜索过程质量的情况。

值得一提的是，为了提高效率，研究团队训练了一个轻量级的辅助模型来执行查询质量评估和优化任务。这个小模型首先由一个更强大的"教师模型"提供标注数据，然后通过学习这些标注来掌握评估和优化能力。实验证明，这个轻量级模型在查询评分上与人工标注的一致性超过80%，与教师模型的一致性超过85%，但运行速度快了近五倍。这个设计在保证效果的同时，大幅降低了系统的计算成本。

研究团队在多个具有挑战性的数据集上验证了SmartSearch的效果。这些数据集涵盖了两类任务：一类是基于维基百科的知识密集型问答，包括2WikiMultihopQA、HotpotQA、Bamboogle和Musique四个数据集；另一类是开放网络环境下的探索任务，包括GAIA和WebWalker。前者需要AI从海量结构化知识中精准检索信息并进行多步推理，后者则要求AI在真实网络环境中导航搜索。

实验结果令人印象深刻。在知识密集型问答任务上，SmartSearch在所有四个数据集上都取得了最佳表现。平均而言，它的精确匹配率（EM）达到37.5%，F1分数达到47.2%，相比第二名分别提升了25%和19%。具体到各个数据集，在2WikiMultihopQA上，SmartSearch的EM达到45.3%，比第二名高出24%；在HotpotQA上提升7%；在Bamboogle上提升22%；在Musique上提升15%。这些提升幅度都相当可观，证明了优化查询质量对整体性能的巨大影响。

更值得关注的是SmartSearch的泛化能力。尽管它完全在维基百科的本地搜索环境中训练，但当研究团队将其应用到开放网络搜索任务时，它依然表现出色。在GAIA数据集上，SmartSearch的EM达到13.4%，F1达到16.7%；在WebWalker上，EM为11.5%，F1为31.0%。平均而言，相比于在这些数据集上表现次优的方法，SmartSearch的F1分数提升了近5个百分点。这说明SmartSearch学到的查询优化能力具有很强的通用性，不局限于特定的搜索环境。

研究团队还进行了详细的对比实验，验证了各个组成部分的贡献。他们发现，在第一阶段的模仿学习中，加入查询质量筛选后，即使训练数据减少到原来的60%，模型的平均EM依然从28.7%提升到31.7%。这清楚地证明了高质量过程示范比单纯增加数据量更重要。在第二阶段，如果去掉查询优化机制，只是简单地生成多个独立轨迹进行对比学习，平均EM会从33.5%下降到31.4%。如果去掉过程奖励，只根据最终答案正确性来判断轨迹优劣，平均EM则下降到32.2%。这些数字表明，查询优化和过程奖励两个机制缺一不可，它们共同作用才能实现最佳效果。

在第三阶段的强化学习中，对比实验揭示了更多细节。如果使用标准的强化学习算法，不引入查询优化机制，平均EM为34.8%；如果只引入查询优化但不使用过程奖励，平均EM为35.8%；如果只引入过程奖励但不使用查询优化，平均EM为35.1%。而SmartSearch同时使用两个机制后，平均EM达到37.5%，显著超过了各个变体版本。研究团队还绘制了训练过程中性能变化的曲线图，清晰地展示了SmartSearch在训练过程中如何稳定提升，最终收敛到最高性能水平。

除了准确率，研究团队还评估了搜索效率。他们定义了一个"搜索效率"指标，计算方式是将每个问题的答案质量除以搜索调用次数，然后取平均值。这个指标反映了AI用多少次搜索能达到什么样的答案质量。结果显示，SmartSearch不仅答案质量最高，搜索效率也最优。这意味着它用更少的搜索次数就能找到正确答案，避免了无效搜索带来的时间和资源浪费。

为了更直观地展示查询质量的提升，研究团队还引入了"搜索质量"指标。这个指标衡量的是多少搜索过程完全由高质量查询组成（称为"完美率"），以及多少搜索过程虽然最终答案错误但包含高质量查询（称为"部分率"）。SmartSearch在完美率和部分率两方面都明显领先其他方法。完美率高意味着AI能够持续生成精准查询，避免中途出错；部分率高则说明即使最终没能解决问题，AI的探索方向也是正确的，为后续改进奠定了基础。

研究团队还特别验证了那个轻量级辅助模型的有效性。他们随机选取了100个搜索轨迹，让人工标注员、教师模型和学生模型分别对每个查询打分。统计发现，教师模型与人工标注的一致性接近90%，学生模型与教师模型的一致性超过85%，学生模型与人工标注的直接一致性也超过80%。这些数字证明，轻量级模型在保持高准确率的同时大幅降低了计算成本。进一步的实验表明，如果用教师模型替代学生模型来执行评估和优化，性能提升不到1个百分点，但每个样本的处理时间却增加了近5倍。这清楚地说明，使用轻量级模型是一个明智的权衡选择。

通过一个具体案例，可以更生动地理解SmartSearch的工作方式。面对问题"美国考古学家道格拉斯·D·斯科特因其在某个战场遗址的工作而著名，这场战役发生在哪一年？"，SmartSearch首先分析问题，理解需要找到这位考古学家最著名的工作地点，然后确定那场战役的年份。接着，它生成第一个搜索查询"道格拉斯·D·斯科特著名的考古遗址"，成功检索到相关信息，发现他因在小大角战场的工作而闻名。过程奖励系统为这个查询打1分，因为查询意图明确且检索结果包含了期望信息。随后，AI利用其内部知识，直接推断出小大角战役发生在1876年，无需进一步搜索。这个例子展示了SmartSearch如何通过精准查询快速锁定关键信息，同时避免了不必要的搜索步骤。

相比之下，如果查询质量不佳会导致什么后果呢？在前面提到的电影演员问题中，如果AI查询"凯文·麦卡锡的出生日期"，搜索引擎可能返回政客凯文·麦卡锡的信息（出生于1965年1月26日）。过程奖励系统会给这个查询打0分，并提供反馈："查询意图是必要的，但检索结果包含的是政客凯文·麦卡锡的信息，而非演员。"基于这个反馈，查询优化机制会将查询改为"演员凯文·麦卡锡的出生日期"，添加了"演员"这个关键限定词。改进后的查询能够准确检索到演员凯文·麦卡锡的信息（出生于1914年2月15日），从而引导AI得出正确答案。这个对比清楚地说明了查询质量的微小差异可能导致截然不同的结果。

当前学术界在AI搜索代理领域的研究主要分为三类方向。第一类是基于提示词工程的方法，通过精心设计的提示词和结构化工作流来引导AI的行为，但这类方法没有从根本上提升模型的底层能力。第二类是基于监督学习的方法，让AI通过模仿专家示范来学习，这能显著提升性能，但往往忽略了示范数据中可能存在的低质量查询。第三类是基于强化学习的方法，通过奖励机制引导AI自主探索更好的策略。近期一些研究开始在强化学习中引入过程奖励，但大多聚焦于优化推理过程本身，较少关注中间搜索查询的质量。SmartSearch的创新之处在于明确将查询质量作为核心优化目标，并设计了完整的评估、优化和学习循环来实现这一目标。

从技术实现的角度，SmartSearch的训练过程包含三个递进阶段。第一阶段使用了一个名为ARPO-14B的模型来生成初始轨迹，然后用这些轨迹对Qwen2.5-3B-Instruct模型进行监督微调。训练采用了7e-6的学习率，运行3个轮次，使用DeepSpeed ZeRO-3和FlashAttention2技术加速训练过程，总批量大小为64，输入长度上限为16384个词元。第二阶段在第一阶段得到的模型基础上进行DPO训练，使用LoRA微调技术，学习率保持7e-6，同样运行3个轮次，输入长度上限减至10000个词元，总批量大小为32。第三阶段针对那些经过4次采样仍未解决的难题进行强化学习，学习率调整为1e-6，每个样本生成8条轨迹，总批量大小为64，PPO小批量大小为16，输出长度上限为8192个词元，每次推理过程中最多调用5次搜索工具。在最终推理时，系统允许最多10次搜索调用，输出长度上限扩展到16384个词元。

整个研究的意义不仅在于性能的显著提升，更在于它揭示了一个重要原则：在复杂的多步骤任务中，优化中间过程的质量与优化最终结果同样重要，甚至更为关键。这个原则不仅适用于AI搜索代理，也可能启发其他需要多步决策的AI系统的设计。比如在自动驾驶中，关注每一个转向决策的质量可能比只关注是否安全到达目的地更有价值；在医疗诊断AI中，优化每一步检查建议的准确性可能比只评估最终诊断结果更能提升系统可靠性。

当然，这项研究也存在一些局限性和未来可以改进的方向。当前的过程奖励机制主要依赖两个维度的评估，未来可以考虑引入更多维度，比如查询的创造性、信息覆盖的全面性等。查询优化机制目前主要基于小模型的改写，未来可以探索更复杂的优化策略，比如从多个候选优化方案中选择最佳的一个。三阶段学习框架虽然有效，但也增加了训练的复杂度，未来研究可以探索如何简化流程或实现端到端的联合优化。

从更广阔的视角来看，SmartSearch代表了AI研究中一个重要的范式转变：从"结果导向"到"过程导向"。传统的AI训练往往只关心最终输出是否正确，就像只看学生的考试成绩而忽略其解题思路。但SmartSearch告诉我们，如果想要AI真正掌握一项复杂技能，必须深入到过程的每一个环节，确保每一步都符合高质量标准。这种"过程质量优先"的理念，可能会影响未来更多AI系统的设计思路。

说到底，信息检索的本质是提出正确的问题。在传统搜索引擎时代，人类用户负责提问，搜索引擎负责查找。而在AI搜索代理时代，AI既要理解用户的复杂意图，又要自己拆解问题、提出一系列精准查询，最后整合信息给出答案。这对AI的要求远高于传统系统。SmartSearch通过系统化的训练方法，让AI学会了这种"提问的艺术"，显著提升了其解决复杂问题的能力。随着这类技术的不断成熟，我们或许能够期待一个更智能的信息获取时代：AI助手不再因为理解偏差而给出错误答案，而是能像经验丰富的研究员一样，准确把握每个问题的关键，高效定位所需信息，最终为用户呈现可靠的答案。这不仅会改变我们获取知识的方式，也可能深刻影响教育、科研、商业决策等众多领域的信息处理模式。

对于那些想要深入了解技术细节或在自己的研究中应用这些方法的读者，完整的论文已经在arXiv平台上公开，编号为2601.04888。研究团队还在GitHub上开源了相关代码，仓库地址为MYVAE/SmartSearch，方便学术界和工业界进一步探索和改进这项技术。

来源:https://www.163.com/dy/article/KPC47I0Q0511DTVV.html

上一篇：斯蒂文斯理工联手打造工业级加密汇编代码验证测试基准

下一篇：阿联酋顶尖AI研究所破解视频世界建模难题