大模型RAG系统效果提升与框架落地选型（一）

AI热点日报时间：2026-05-30

热点解读

RAG是一套系统工程，核心优化路径为增量预训练、SFT再到RAG。主流框架分为Naive、Advanced与Modular三类。AdvancedRAG针对内容缺失、排名干扰、推理乏力等问题，采用HyDE、Step-backPrompting、BGEReRanker等方法提升效果。工业落地选型包括技术问答、RAG平台等场景，综合运用多路召回与重排序策略。

先说几个基本判断。RAG（检索增强生成）技术近两年热度持续攀升，各类学术论文与技术博客文章层出不穷，令人目不暇接。但究其本质，RAG是一套严谨的系统工程体系，从文档索引构建、信息检索到答案生成，涉及的模块繁多。每个环节都具备独立的优化空间，也因此催生了众多创新方法。反过来看，只要把握住整体系统框架的稳定性，后续涌现的各种新颖解决方案，无非是在这个成熟框架内的精细化迭代，思路便能保持清晰。

为何各家企业如此高度重视RAG？因为它已成为大模型实现商业落地的优秀场景之一。问答系统几乎是所有企业绕不开的核心需求——无论是内部业务咨询、技术知识解答，还是面向客户的智能客服系统，大家都在进行类似的探索与实践，只是侧重点和技术路线有所区别。

这引出一个关键问题：如何将领域知识有效注入大模型？增量预训练、微调（Fine-tuning）、RAG这三条技术路径该如何选择？从落地效率看，RAG优势明显：它能够显著减少模型幻觉，提供可验证的知识来源，支持知识的动态更新，并具备良好的可解释性。但在技术对比时，业界常将指令微调（SFT）或监督微调与RAG比较，而增量预训练却较少被提及。需要强调的是，增量预训练对特定领域知识的增益往往被低估——尤其对于那些与通用语料差异显著的垂直专业领域。Yi的技术报告指出，增量预训练在扩展上下文窗口方面也有显著帮助。因此，建议的技术优化路径顺序为：先考虑增量预训练（低频进行）→ 再引入SFT → 最后再应用RAG，形成迭代式的持续优化策略。

RAG框架：从Naive到Modular的演进路径

目前主流的RAG系统框架可划分为三大类别：基础RAG（Naive RAG）、高级RAG（Advanced RAG）和模块化RAG（Modular RAG）。同济大学那篇综述文章中的框架示意图值得反复研读，它对强化整体系统架构的理解非常有效。实际上，绝大多数企业目前仍处于高级RAG阶段，核心工作聚焦于检索器的细节打磨，以及大语言模型对召回内容的总结、推理和生成效果的调优。

几个值得关注的Advanced RAG核心方法

所谓“高级”，自然是针对具体痛点问题出手。常见的问题主要包括三类：

内容缺失问题：检索到的文档中无法找到正确答案——这本质上是召回阶段的准确性问题。
排名干扰问题：Top K的检索结果中混入了大量无关信息，正确的文档反而被埋没——这属于排序阶段的准确性问题。
推理乏力问题：模型虽然拿到了正确的文档，但缺乏有效的利用能力——该如何聚焦关键段落、忽略无关内容，最终能否精准、完整地回答用户问题，这取决于模型的推理与总结能力。

为什么只精选这几个方法介绍？因为《ARAGOG: Advanced RAG Output Grading》这篇论文明确指出，事实上许多（夸张一点说“成千上万”）的高级技巧，实际效果并不理想。方法数量多并不等于效果好，关键在于辩证思考并进行实践验证。

针对第一个问题，介绍几种基于Prompt Engineering（提示词工程）的查询改写或扩展方法：

HyDE方法：首先让大模型根据用户输入的Query生成一个“假设性文档”，然后利用这个假设文档到知识库中进行检索。其背后的逻辑在于：假设文档在语义表达上更贴近知识库的编码方式，从而能够有效提升召回命中率。
Step-back Prompting方法：从具体问题向更抽象的问题维度“后退一步”。例如，用户询问“张三的合同里有没有竞业限制条款”，可将其抽象为“张三的合同包含哪些关键条款”，再以此进行检索，往往能获得更全面的信息。
Meta CoVe方法：面向复杂Query时，直接将用户问题拆解为几个更细粒度的子问题，分别检索后再汇总答案。相比用一个复杂Query一次性检索，这种方式获取的知识颗粒度更细、覆盖范围更全面。

背后的原理其实很简单：这几类方法的核心思路都是将用户那些“表述模糊、不够规范”的问题，翻译成大模型或检索系统更擅长的“内部语义语言”，降低了系统的理解成本，检索效果自然显著提升。

至于第二个问题——对召回内容进行精细化的排序优化：

LLM ReRank方法：直接调用大模型API对已召回的文档进行排序，目前看到实际应用的人相对较少。
BGE ReRanker方法：FlagEmbedding开源的一个交叉编码器模型，其排序能力显著优于普通的向量模型。官方建议使用该模型（或进行微调后）对向量模型返回的Top K文档做重新排序，以提升最终结果与实际查询的相关性。这一方案在工业界应用广泛，代码实现方便，值得推荐。

第三个问题——模型获取知识后的推理与总结能力，目前讨论相对较少。表面上这似乎是个简单的“润色”任务，但实际涉及大量复杂推理。例如，用户询问：“安装充电桩，布线11米怎么收费？”而文档描述却是“5米到10米收费X元，10米以上打九折”。这就要求模型能够理解逻辑链条，而不是简单地从文档中复制粘贴。从目前技术发展来看，这类复杂推理问题只有API级别的大型模型（如GPT-4、Kimi Chat）才能处理得较好，其他方法仍在探索过程中。

这些方法当然不仅限于此，但近期比较关注、且在若干论文中验证过效果不错的，就先介绍到这里。实际项目落地时大概率需要逐个尝试。不过，只要把前面那套整体框架理解透彻，就知道每个方法的优化方向应该往哪里走。

工业落地实践中的一些实际技术选型

个人更倾向于将技术落地作为最终目标，因此平时也会密切关注各家公司具体的工程实施方案。以下列举几个常见的选型案例供大家参考。

技术问答机器人场景

意图识别：具体方案暂不明确。
检索召回：采用BGE Embedding进行向量检索。为了提升特定领域的效果，采用RetroMAE方式——使用全参数BERT作为编码器，叠加单层Transformer作为解码器，对掩码词进行预测，从而实现领域语义增强。
排序生成：检索结果优化采用RAG-Fusion方案——由大模型生成多个不同角度的Query，按照RRF（基于排名倒数的综合打分）方式融合多路结果，同时配合BGE-ReRank进行二次排序，进一步提升相关性。

RAG平台场景

意图识别：利用意图识别进行场景分流，技术路线采用bge_large_en向量模型配合大模型共同完成。
检索召回：使用Cohere Embedding（支持100种以上语言）进行向量检索；工程实现上采用OpenSearch实现多路混合召回（向量检索 + 关键词检索），同时包含Sparse Vector Retrieval（词项扩展）等策略。
排序生成：使用BGE模型进行ReRank。
知识库：按照“大模型自有知识 → 网络搜索 → 内部知识库”的优先级顺序进行ReRank。

百川场景

意图识别：具体技术细节未公开。但从百川2的技术论文来看，其对齐过程包含了非常细粒度的层级意图分类，可以推测其意图识别系统做得非常精细。
检索召回：Query扩展采用Meta CoVe和Think Step-Further；检索策略选取稀疏检索结合向量检索（自研baichuan-text-embedding模型）。
排序生成：具体的rerank模型未公开；但采用了self-critique自我批判机制——让大模型基于prompt，从相关性和可用性等维度对检索到的内容进行自我反思与评估，挑选出与用户prompt最匹配、质量最高的候选内容。

注：“/”表示该环节优化细节不明确。

总结

如开篇所述，RAG本质是一套严谨的系统工程，并非某种全新的技术突破。只不过在大模型时代，这套系统的价值被前所未有地凸显出来。因此相关论文和最佳实践经验层出不穷，也是必然趋势。我们真正需要做的事情，是在实际项目中快速实现落地，针对自身业务场景反复调优，积累足够多的实践经验后，自然就能形成体系化的方法论。本文只是介绍了RAG的整体框架和几个经过验证的优化方法，远未涉及全部内容——比如多模态数据处理、语料到知识库的清洗与构建、RAG系统的正确评估方法、自动生成引文等，还有很多值得深入探索的方向。希望后续能结合更多实际落地场景和前沿论文，继续深入展开讨论。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：大模型RAG系统效果提升与框架落地选型（一）要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/RAG/2024090717209.html

ai 人工智能

上一篇：国网智能电力机器人领跑全球智能电力时代

下一篇：QoderWake免费Token获取渠道合法合规降低数字员工成本

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。