RAG混合检索原理与落地实践全解析
做RAG系统,十个团队有九个会在检索这一步栽跟头。语义检索、关键词检索、混合检索、Rerank重排序……这些概念听起来简单,但组合起来就是一道复杂的工程选择题。今天,我们把它们一次性讲透。

先说结论
「生产级RAG必须用混合检索。单一检索方式,无论是语义还是关键词,都有致命盲区。」
下面展开讲为什么。
一、RAG检索的关键在哪?
RAG(检索增强生成)的核心流程,说白了就是「先搜,再答」。
这个逻辑很直接:搜得好,大语言模型(LLM)就有高质量的“参考资料”,回答自然靠谱;搜得烂,LLM就只能靠“编”,结果可想而知。可以说,检索层的质量,直接决定了整个RAG系统的天花板。
「Garbage In, Garbage Out.」
目前,主流的检索方式有三种,它们各有各的脾气。
二、三种检索方式一图看懂
假设用户问了这么一句:「Transformer模型的注意力机制是什么?」
三种检索方式会怎么处理?
用户 Query
│
├── ① 语义检索(理解你想问啥)
│ Query → Embedding 向量 → 向量数据库搜索
│ 能找到:“自注意力机制通过Q/K/V实现序列内部关联”
│ 可能漏掉:包含 “multi-head attention” 但语义向量偏远的文档
│
├── ② 关键词检索(一字不差地匹配)
│ Query → 分词 → 关键词匹配
│ 能找到:包含 “Transformer”、“注意力” 等关键词的文档
│ 可能漏掉:“自注意力机制让模型学会了序列中各位置的关联”
│
└── ③ 混合检索 = ① + ② + 融合排序
同时跑两路,合并结果
兼顾语义理解和精确匹配 ← 这才是正解
看个更直观的对比:
只有混合检索能在所有场景下都保持不错的覆盖度,单一检索方式总会在某些地方“失明”。
三、语义检索:让机器“读懂”你的意思
核心原理
它的工作流可以概括为:文本 → Embedding模型 → 稠密向量(例如1024维浮点数组) → 向量数据库ANN搜索。
简单来说,就是把文字变成一串高维空间里的数字坐标,然后用“坐标之间的距离”来衡量两段话的意思是否相近。
“机器学习是人工智能的一个子领域”
→ [0.23, -0.45, 0.67, 0.12, ..., -0.01] (1024维,每维都有值)
特点:
• 维度固定(768 / 1024 / 1536),取决于模型
• 几乎每一维都非零 → 所以叫“稠密”
• 捕捉的是语义:同义词、上下位关系都能handle
优势
理解“你想问什么”——不同表述、不同说法都能匹配上。
跨语言能力——多语言模型让中英文互搜成为可能。
对拼写错误、口语化表达有不错的容错性。
局限
专有名词、低频术语在训练数据中太少,向量“认不准”。
产品型号、错误码这类「精确标识符」完全编不进去。
黑盒——你没法解释“为什么返回了这条结果”。
四、关键词检索:两条截然不同的技术路线
很多人以为关键词检索只有一种,其实不然。这里有「两条完全不同的技术路线」,实现机制和适用场景差异巨大,搞混了很容易踩坑。
关键词检索
│
┌────────────┴────────────┐
▼ ▼
路线A:稀疏向量 路线B:全文索引 + 分词
(BM25 in Milvus) (jieba + Qdrant/ES)
│ │
把关键词检索“伪装”成向量, 用经典的“倒排索引”,
统一到向量检索框架中。 直接做关键词匹配。
两条路线「都能实现关键词检索」,但背后的逻辑、能力边界和适用场景完全不同。
路线A:稀疏向量——把关键词“伪装”成向量
核心思路
把文本通过BM25或学习型模型(如SPLADE、BGE-M3 Sparse)编码成一个「超高维但绝大部分维度为0」的向量,然后存进向量数据库,用内积(IP)搜索来匹配。
文本 → 分词 → BM25算法 → 稀疏向量(大部分维度为0)
↓
Milvus SparseFloatVector字段
↓
查询时也转成稀疏向量,用内积(IP)匹配
稀疏向量长什么样?
词汇表 = {猫:0, 狗:1, 吃:2, 鱼:3, 睡觉:4, ...} (假设30000个词)
“猫吃鱼” → {0: 1.2, 2: 0.8, 3: 1.5} // 30000维,只有3个维度非零
每个非零维度的值,就是该词的BM25权重,综合了词频、逆文档频率、文档长度等因素。
生成稀疏向量的三种方式
Milvus中怎么用?
// 定义Collection Schema
schema := &entity.Schema{
CollectionName: “chunks”,
Fields: []*entity.Field{
{Name: “id”, DataType: entity.FieldTypeVarChar, PrimaryKey: true},
{Name: “dense_vector”, DataType: entity.FieldTypeFloatVector, Dim: 1024},
{Name: “sparse_vector”, DataType: entity.FieldTypeSparseVector}, // 稀疏向量
{Name: “content”, DataType: entity.FieldTypeVarChar},
},
}
一个Collection里同时存放稠密和稀疏两种向量,混合检索一次API调用就能搞定。
路线B:全文索引+分词——经典信息检索的正统玩法
核心思路
用经典的「倒排索引(Inverted Index)」:先把文本用分词器拆成一个个词(Term),然后建立“词 → 文档列表”的反向映射。查询时也拆词,直接查这个映射表。
文本 → jieba分词 → 建倒排索引
↓
词项 → [文档ID + 位置 + 词频]
↓
查询时分词 → 查倒排索引 → BM25打分
倒排索引长什么样?
文档1: “猫吃鱼” → [“猫”, “吃”, “鱼”]
文档3: “狗吃骨头” → [“狗”, “吃”, “骨头”]
文档5: “猫睡觉” → [“猫”, “睡觉”]
倒排索引:
“猫” → [{doc1, pos=[0]}, {doc5, pos=[0]}]
“吃” → [{doc1, pos=[1]}, {doc3, pos=[1]}]
“鱼” → [{doc1, pos=[2]}]
“狗” → [{doc3, pos=[0]}]
查询 “猫吃鱼” → 分词 [“猫”,“吃”,“鱼”] → doc1命中3个词 → 最相关
分词是灵魂
「jieba分词」在中文RAG场景中是最关键的环节之一,它直接决定了索引的质量:
# 默认分词——可能出问题
jieba.cut(“深度学习是人工智能的核心技术”)
→ [“深度”, “学习”, “是”, “人工智能”, “的”, “核心”, “技术”]
# ↑ “深度学习”被拆开了!
# 加自定义词典——效果立竿见影
jieba.add_word(“深度学习”, freq=10000)
jieba.add_word(“ChatGPT”, freq=10000)
jieba.add_word(“BGE-M3”, freq=10000)
jieba.cut(“深度学习是人工智能的核心技术”)
→ [“深度学习”, “是”, “人工智能”, “的”, “核心”, “技术”]
# ↑ 完美保持整词
同义词扩展
{
“synonym_filter”: {
“type”: “synonym”,
“synonyms”: [
“LLM, 大语言模型, 大模型”,
“RAG, 检索增强生成”,
“Embedding, 嵌入, 向量化”
]
}
}
这样配置后,搜索“大模型”时,系统会自动匹配包含“LLM”和“大语言模型”的文档,召回率会显著提升。
各引擎的实现方式
五、稀疏向量 vs 全文索引,到底选哪个?
这是大家最关心的问题,下面这张详细对比表可以帮你理清思路。
分词能力:核心区别
这是两条路线「最本质的差异」。
「稀疏向量」——黑盒分词:
无法控制“深度学习”是拆成两词还是保持整词
无法添加业务专有术语
无法配置同义词
→ 适合通用场景
「全文索引」——白盒分词:
自定义词典: jieba.add_word(“深度学习”)
专有名词: jieba.add_word(“ChatGPT”)
同义词扩展: “LLM” ↔ “大语言模型”
停用词控制: 过滤“的”、“是”、“了”
→ 适合中文和专业领域
「划重点:如果你做的是中文RAG,自定义词典和同义词扩展几乎是刚需,这时候全文索引方案有明显优势。」
查询表达力:另一个关键差异
「稀疏向量」只能做相似度搜索,给你一个排好序的结果列表,功能比较单一。
「全文索引」则支持丰富的查询语法:
# 精确短语
“机器学习” → 必须连续出现
# 布尔组合
(Transformer OR BERT) AND 预训练 NOT GPT-2
# 通配符
deep* → deeplearning, deepfake, ...
# 模糊匹配
machne~1 → machine(允许1个编辑距离)
# 高亮
搜索“注意力机制” → 返回 注意力机制
什么时候选哪个?
「选稀疏向量」:
- 只想维护一个向量库(Milvus/Zilliz)。
- 数据量在几百万到几千万级别。
- 快速搭建MVP,不需要复杂检索功能。
- 通用领域,不需要自定义分词。
「选全文索引」:
- 中文场景,需要jieba自定义词典。
- 需要精确匹配:如产品型号、法律条款、医学术语。
- 数据量达到亿级,ES的分布式架构更成熟。
- 需要布尔查询、短语匹配等高级功能。
六、混合检索怎么实现?两种方案实操对比
方案A:稀疏向量方案(Milvus原生)
一次API调用,数据库内部同时搜索两种向量,并自动用RRF算法融合结果。
searchRequests := []*milvus.ANNSearchRequest{
// 稠密向量搜索(语义)
milvus.NewANNSearchRequest(“dense_vector”, “COSINE”, denseQuery, topK),
// 稀疏向量搜索(关键词)
milvus.NewANNSearchRequest(“sparse_vector”, “IP”, sparseQuery, topK),
}
// Milvus内部完成RRF融合
results, _ := client.HybridSearch(ctx, collectionName, searchRequests,
milvus.NewRRFRanker(60), topK)
「一句话评价」:简单省事,但分词不可控。
方案B:全文索引方案(双通道)
两次独立调用,在应用层进行融合。
// 第一步:向量检索
vectorResults := qdrantClient.Search(ctx, &qdrant.SearchPoints{
CollectionName: collection,
Vector: queryEmbedding,
Limit: uint64(topK),
})
// 第二步:全文检索
textResults := qdrantClient.Query(ctx, &qdrant.QueryPoints{
CollectionName: collection,
Query: qdrant.NewQueryText(“搜索关键词”),
})
// 第三步:合并去重 + Rerank
mergedResults := mergeAndDedup(vectorResults, textResults)
finalResults := reranker.Rerank(query, mergedResults)
「一句话评价」:灵活强大,但需要多走一步。
融合排序用什么算法?
最常用的是「RRF(倒数排名融合)」,简单又有效:
公式: RRF_score(d) = Σ 1/(k + rank_i(d))
k = 60
举个例子:
文档X: 语义排第1, 关键词排第5 → RRF = 1/61 + 1/65 = 0.03177
文档Y: 语义排第3, 关键词排第2 → RRF = 1/63 + 1/62 = 0.03200
→ Y排前面(两边都靠前 > 一边极前一边靠后)
RRF的妙处在于:「只看排名,不看分数」。这样就完美避开了两路检索分数量纲不同的问题。
七、Rerank重排序:从“差不多”到“真的准”
为什么还需要Rerank?
混合检索的第一阶段(召回)追求的是「快」和「全」,精度是有限的。Rerank的作用,就是用更精确的模型做一次“精排”:
Embedding模型(Bi-Encoder):
分别编码Query和Chunk → 独立向量 → 快,但精度有限
Reranker(Cross-Encoder):
同时编码Query + Chunk → 联合理解 → 慢,但精度高得多
打个比方:「召回是海选,Rerank是终面。」
常用Rerank模型
最佳实践
混合检索取Top 20~50 → Rerank精排 → 输出Top 5
关键参数:
• 召回数量: 最终要N条,先召回4N条
• 分数阈值: 过滤Rerank分数太低的结果
• 降级策略: Rerank挂了就退回原始排序,保证可用性
完整代码示例:
func (s *SearchService) HybridSearchWithRerank(
ctx context.Context,
knowledgeBaseID string,
query string,
topK int,
) ([]*SearchResult, error) {
denseVec, err := s.embedder.EmbedDense(ctx, query)
if err != nil {
return nil, fmt.Errorf(“embed dense: %w”, err)
}
sparseVec, err := s.embedder.EmbedSparse(ctx, query)
if err != nil {
return nil, fmt.Errorf(“embed sparse: %w”, err)
}
// 4倍候选量,留给Rerank筛选
candidates, err := s.vectorRepo.HybridSearch(
ctx, knowledgeBaseID, denseVec, sparseVec, topK*4,
)
if err != nil {
return nil, fmt.Errorf(“hybrid search: %w”, err)
}
reranked, err := s.reranker.Rerank(ctx, query, candidates, topK)
if err != nil {
return candidates[:topK], nil // 降级:Rerank挂了就用原始结果
}
return reranked, nil
}
八、方案选型:三种架构方案 + 决策树
方案A:Milvus单引擎(稠密 + 稀疏向量)
┌─────────────────────────────────┐
│ Milvus │
│ ┌──────────┐ ┌──────────┐ │
│ │ Dense Vec│ │Sparse Vec│ │
│ │ (语义) │ │ (BM25) │ │
│ └──────────┘ └──────────┘ │
│ HybridSearch + RRF │
└─────────────────────────────────┘
优点:架构最简,一个库搞定;混合检索一次调用。
不足:分词不可控;无复杂查询。
方案B:双引擎(向量库 + 全文搜索)
┌───────────────┐ ┌───────────────┐
│ Milvus │ │Elasticsearch │
│ (语义检索) │ │ (关键词) │
└───────┬───────┘ └───────┬───────┘
└────────┬───────────┘
▼
应用层RRF融合 → Rerank
优点:各取所长;分词可控;支持复杂查询。
不足:两套系统;需要自己写融合逻辑。
方案C:全能引擎(单引擎双模式)
┌─────────────────────────────────┐
│ Qdrant / ES v8 / PostgreSQL │
│ ┌──────────┐ ┌──────────┐ │
│ │ Vector │ │ 全文索引 │ │
│ │ (语义) │ │ (关键词) │ │
│ └──────────┘ └──────────┘ │
│ 单引擎覆盖两种检索模式 │
└─────────────────────────────────┘
优点:单引擎双模;运维简单;分词可控。
不足:超大规模下,性能可能不如专业的向量数据库。
选型决策树
你的RAG项目需要什么?
│
├── 快速上线 + 数据 < 1000万 + 通用领域
│ → 方案A:Milvus单引擎
│
├── 中文场景 + 需要自定义词典 + 精确匹配
│ │
│ ├── 数据 > 5000万,性能要求高
│ │ → 方案B:Milvus语义 + ES关键词
│ │
│ └── 数据量适中,运维简单优先
│ → 方案C:Qdrant / ES v8单引擎
│
├── 多租户SaaS + 不同客户不同需求
│ → 方案C:全能引擎 + 按需组合
│
└── 已有PostgreSQL + 不想引入新组件
→ 方案C:pgvector + ParadeDB
方案对比总结
附录:核心术语速查
写在最后
RAG的检索层看似简单,但真正要做好,需要深刻理解几个关键点:
- 「语义检索」理解“你想问什么”,但对精确术语无能为力。
- 「关键词检索」擅长精确匹配,但对同义表述视而不见。
- 「混合检索」是唯一的正确答案,关键在于选对技术路线。
- 「Rerank」是从80分到95分的最后一公里。
- 「选对架构」让你面对不同场景都能从容应对。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
大模型训练合成数据生成的十大实用策略
合成数据,这个曾经被视为“辅助工具”的技术选项,如今正快速演进为驱动大模型开发与迭代的核心基础设施。对于任何致力于长期模型训练、优化和持续升级的团队而言,构建高质量的合成数据能力已成为一项战略性任务。 背后的驱动力非常现实:获取大规模、高质量的训练数据始终是AI团队面临的主要瓶颈。数据或许存在,但面
Claude代码能力更新引争议思考深度下降难处理复杂工程
近期,AI编程工具Claude Code的性能表现引发了开发者社区的广泛关注与深度讨论。一份在官方仓库引发热议的Issue直指核心问题:这款曾被寄予厚望的AI编程助手,在经历特定更新后,其处理复杂工程任务的能力似乎出现了显著退化。 核心指控聚焦于一次关键更新:据称,该更新导致模型的内部推理深度骤降约
SentiAvatar革新3D数字人动作生成技术
与3D数字人互动时,你是否曾感到一丝难以言喻的“不自然”?它的嘴唇在同步发音,表情却略显呆板;手臂虽有动作,却与对话内容缺乏关联。更常见的是,那些外观高度拟真但动作僵硬、节奏失调的数字人,很容易将用户体验带入“恐怖谷”效应。 问题的核心在于,人类的高效沟通从来不是单一维度的信息传递。一个细微的耸肩足
Claude Code内置工具与技能完整清单揭秘
在上一篇文章中,我们深入剖析了Claude Code的System Prompt架构与提示词工程。今天,我们把目光转向它的“能力体系”——一个由40多个内置工具、5个专用Agent以及一套完整的斜杠命令构成的强大工具箱。所有洞察,均源自对源码的深度分析。 一、工具全景:40+ 个内置工具 Claud
匹兹堡大学新作实现一句话生成逼真3D场景
视觉语言大模型(VLM)在描述图像内容时往往头头是道,可一旦面对三维空间推理,短板就暴露无遗。物体一多,视角一换,模型的认知底线很容易被击穿。 更棘手的是,想精准评估这种能力也困难重重。真实世界的数据集采集成本高昂,且难以灵活调整参数;而程序生成的3D场景又常常显得虚假、违背物理规律。业界一直缺少一
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

