大模型RAG系统效果提升与框架落地选型(一)
RAG是一套系统工程,核心优化路径为增量预训练、SFT再到RAG。主流框架分为Naive、Advanced与Modular三类。AdvancedRAG针对内容缺失、排名干扰、推理乏力等问题,采用HyDE、Step-backPrompting、BGEReRanker等方法提升效果。工业落地选型包括技术问答、RAG平台等场景,综合运用多路召回与重排序策略。
先说几个基本判断。RAG(检索增强生成)技术近两年热度持续攀升,各类学术论文与技术博客文章层出不穷,令人目不暇接。但究其本质,RAG是一套严谨的系统工程体系,从文档索引构建、信息检索到答案生成,涉及的模块繁多。每个环节都具备独立的优化空间,也因此催生了众多创新方法。反过来看,只要把握住整体系统框架的稳定性,后续涌现的各种新颖解决方案,无非是在这个成熟框架内的精细化迭代,思路便能保持清晰。
为何各家企业如此高度重视RAG?因为它已成为大模型实现商业落地的优秀场景之一。问答系统几乎是所有企业绕不开的核心需求——无论是内部业务咨询、技术知识解答,还是面向客户的智能客服系统,大家都在进行类似的探索与实践,只是侧重点和技术路线有所区别。
这引出一个关键问题:如何将领域知识有效注入大模型?增量预训练、微调(Fine-tuning)、RAG这三条技术路径该如何选择?从落地效率看,RAG优势明显:它能够显著减少模型幻觉,提供可验证的知识来源,支持知识的动态更新,并具备良好的可解释性。但在技术对比时,业界常将指令微调(SFT)或监督微调与RAG比较,而增量预训练却较少被提及。需要强调的是,增量预训练对特定领域知识的增益往往被低估——尤其对于那些与通用语料差异显著的垂直专业领域。Yi的技术报告指出,增量预训练在扩展上下文窗口方面也有显著帮助。因此,建议的技术优化路径顺序为:先考虑增量预训练(低频进行)→ 再引入SFT → 最后再应用RAG,形成迭代式的持续优化策略。
RAG框架:从Naive到Modular的演进路径
目前主流的RAG系统框架可划分为三大类别:基础RAG(Naive RAG)、高级RAG(Advanced RAG)和模块化RAG(Modular RAG)。同济大学那篇综述文章中的框架示意图值得反复研读,它对强化整体系统架构的理解非常有效。实际上,绝大多数企业目前仍处于高级RAG阶段,核心工作聚焦于检索器的细节打磨,以及大语言模型对召回内容的总结、推理和生成效果的调优。
几个值得关注的Advanced RAG核心方法
所谓“高级”,自然是针对具体痛点问题出手。常见的问题主要包括三类:
内容缺失问题:检索到的文档中无法找到正确答案——这本质上是召回阶段的准确性问题。
排名干扰问题:Top K的检索结果中混入了大量无关信息,正确的文档反而被埋没——这属于排序阶段的准确性问题。
推理乏力问题:模型虽然拿到了正确的文档,但缺乏有效的利用能力——该如何聚焦关键段落、忽略无关内容,最终能否精准、完整地回答用户问题,这取决于模型的推理与总结能力。
为什么只精选这几个方法介绍?因为《ARAGOG: Advanced RAG Output Grading》这篇论文明确指出,事实上许多(夸张一点说“成千上万”)的高级技巧,实际效果并不理想。方法数量多并不等于效果好,关键在于辩证思考并进行实践验证。
针对第一个问题,介绍几种基于Prompt Engineering(提示词工程)的查询改写或扩展方法:
HyDE方法:首先让大模型根据用户输入的Query生成一个“假设性文档”,然后利用这个假设文档到知识库中进行检索。其背后的逻辑在于:假设文档在语义表达上更贴近知识库的编码方式,从而能够有效提升召回命中率。
Step-back Prompting方法:从具体问题向更抽象的问题维度“后退一步”。例如,用户询问“张三的合同里有没有竞业限制条款”,可将其抽象为“张三的合同包含哪些关键条款”,再以此进行检索,往往能获得更全面的信息。
Meta CoVe方法:面向复杂Query时,直接将用户问题拆解为几个更细粒度的子问题,分别检索后再汇总答案。相比用一个复杂Query一次性检索,这种方式获取的知识颗粒度更细、覆盖范围更全面。
背后的原理其实很简单:这几类方法的核心思路都是将用户那些“表述模糊、不够规范”的问题,翻译成大模型或检索系统更擅长的“内部语义语言”,降低了系统的理解成本,检索效果自然显著提升。
至于第二个问题——对召回内容进行精细化的排序优化:
LLM ReRank方法:直接调用大模型API对已召回的文档进行排序,目前看到实际应用的人相对较少。
BGE ReRanker方法:FlagEmbedding开源的一个交叉编码器模型,其排序能力显著优于普通的向量模型。官方建议使用该模型(或进行微调后)对向量模型返回的Top K文档做重新排序,以提升最终结果与实际查询的相关性。这一方案在工业界应用广泛,代码实现方便,值得推荐。
第三个问题——模型获取知识后的推理与总结能力,目前讨论相对较少。表面上这似乎是个简单的“润色”任务,但实际涉及大量复杂推理。例如,用户询问:“安装充电桩,布线11米怎么收费?”而文档描述却是“5米到10米收费X元,10米以上打九折”。这就要求模型能够理解逻辑链条,而不是简单地从文档中复制粘贴。从目前技术发展来看,这类复杂推理问题只有API级别的大型模型(如GPT-4、Kimi Chat)才能处理得较好,其他方法仍在探索过程中。
这些方法当然不仅限于此,但近期比较关注、且在若干论文中验证过效果不错的,就先介绍到这里。实际项目落地时大概率需要逐个尝试。不过,只要把前面那套整体框架理解透彻,就知道每个方法的优化方向应该往哪里走。
工业落地实践中的一些实际技术选型
个人更倾向于将技术落地作为最终目标,因此平时也会密切关注各家公司具体的工程实施方案。以下列举几个常见的选型案例供大家参考。
技术问答机器人场景
意图识别:具体方案暂不明确。
检索召回:采用BGE Embedding进行向量检索。为了提升特定领域的效果,采用RetroMAE方式——使用全参数BERT作为编码器,叠加单层Transformer作为解码器,对掩码词进行预测,从而实现领域语义增强。
排序生成:检索结果优化采用RAG-Fusion方案——由大模型生成多个不同角度的Query,按照RRF(基于排名倒数的综合打分)方式融合多路结果,同时配合BGE-ReRank进行二次排序,进一步提升相关性。
RAG平台场景
意图识别:利用意图识别进行场景分流,技术路线采用bge_large_en向量模型配合大模型共同完成。
检索召回:使用Cohere Embedding(支持100种以上语言)进行向量检索;工程实现上采用OpenSearch实现多路混合召回(向量检索 + 关键词检索),同时包含Sparse Vector Retrieval(词项扩展)等策略。
排序生成:使用BGE模型进行ReRank。
知识库:按照“大模型自有知识 → 网络搜索 → 内部知识库”的优先级顺序进行ReRank。
百川场景
意图识别:具体技术细节未公开。但从百川2的技术论文来看,其对齐过程包含了非常细粒度的层级意图分类,可以推测其意图识别系统做得非常精细。
检索召回:Query扩展采用Meta CoVe和Think Step-Further;检索策略选取稀疏检索结合向量检索(自研baichuan-text-embedding模型)。
排序生成:具体的rerank模型未公开;但采用了self-critique自我批判机制——让大模型基于prompt,从相关性和可用性等维度对检索到的内容进行自我反思与评估,挑选出与用户prompt最匹配、质量最高的候选内容。
注:“/”表示该环节优化细节不明确。
总结
如开篇所述,RAG本质是一套严谨的系统工程,并非某种全新的技术突破。只不过在大模型时代,这套系统的价值被前所未有地凸显出来。因此相关论文和最佳实践经验层出不穷,也是必然趋势。我们真正需要做的事情,是在实际项目中快速实现落地,针对自身业务场景反复调优,积累足够多的实践经验后,自然就能形成体系化的方法论。本文只是介绍了RAG的整体框架和几个经过验证的优化方法,远未涉及全部内容——比如多模态数据处理、语料到知识库的清洗与构建、RAG系统的正确评估方法、自动生成引文等,还有很多值得深入探索的方向。希望后续能结合更多实际落地场景和前沿论文,继续深入展开讨论。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:大模型RAG系统效果提升与框架落地选型(一)要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点很多人都在问:ShareGPT生成的分享链接,能不能删除或撤回?答案是明确的——不行。ShareGPT本身并不提供让已发布链接实时失效的机制。一旦链接被分享出去,任何持有它的人都能继续访问那个对话快照。不过别着急,虽然无法彻底“回收”,但通过以下操作,仍然可以将访问限制降到最低,接下来的几个步骤就能
2026吉林省交通科技创新大会在吉高集团数据产业园召开,主题为“智领吉林交通、科技实效赋能”。会议发布“人工智能+交通运输”创新应用成果案例与科技成果推广目录。吉辽黑三省共同发起东北交通科技创新一体化联合倡议,聚焦寒区基建、智慧路网等领域协同创新。
Omdia预测,2027年全球人形机器人出货量将突破10000台,2030年达38000台,年复合增长率83%。生成式AI热潮及伺服电机、传感器等部件成本下降推动发展。机器人将率先应用于汽车制造,未来拓展至物流、零售、医疗等领域,但技术仍处早期,规模化落地尚需数年。
2026年5月29日,东杰智能涨停,涨幅20 02%,市值达119亿元。扭亏为盈、营收增长超25%,可转债转股降低负债率,获标准无保留审计意见;新增AI业务布局紧跟科技风口;发展规划清晰,股东人数减少显示筹码集中,叠加MACD金叉等技术信号,多重因素推动股价上涨。
- 日榜
- 周榜
- 月榜
热点快看
