Sparse Retrieval 稀疏检索

本次查询Sparse RetrievalAI 热词解释结果

中文解释稀疏检索

热词类型信息检索技术

常见场景RAG系统中的文档检索 / 企业知识库问答 / 搜索引擎关键词匹配 / 法律文书检索

一句话解释

稀疏检索通过将文档和查询表示为高维稀疏向量（大部分元素为0），利用词频和逆文档频率等统计指标计算相似度，从而快速找到包含特定关键词的文档。

在大模型RAG（检索增强生成）中，稀疏检索能以极低成本实现关键词层面的精确召回，避免稠密检索可能遗漏的稀有术语或专业名词。

同时，其计算效率高、可解释性强，尤其适合法律、医疗等领域对精确匹配有硬性需求的场景，因此重新成为AI应用的热点。

核心在于将文本转化为稀疏向量：每个维度对应一个词项，值为该词在文档中的权重（如TF-IDF）。查询同样转为向量后，通过余弦相似度或内积计算相关性。

底层依赖倒排索引结构，记录每个词项出现在哪些文档及出现次数，从而实现毫秒级检索。BM25是对TF-IDF的改进，加入文档长度归一化和饱和函数，效果更优。

RAG系统中通常与稠密检索组成混合检索，先用稀疏检索快速过滤出候选文档，再用稠密向量精排，兼顾召回率和准确率。

企业级知识库搜索、电商商品搜索（如精确型号匹配）、文献查重等场景中，稀疏检索仍是不可替代的基础组件。

稀疏检索≠低精度：虽然基于关键词，但BM25等算法在众多基准测试中与稠密检索效果相当，尤其对于长尾词和低频术语。

稀疏检索与稠密检索并非互斥，而是互补：前者擅长精确匹配，后者擅长语义相似，实际应用中通常组合使用。

来源：AI 热词解释频道整理

Sparse Retrieval BM25 TF-IDF 倒排索引稠密检索

本文内容用于 AI 热词解释和概念整理，仅供学习和理解参考。若涉及表述偏差或内容修正，欢迎联系站点进行更新。

相关热词

向量检索更新：2026-05-14

向量检索是一种基于深度学习的技术，它将文本、图像等数据转换为高维空间中的向量（一组数字），并通过计算向量间的相似度来寻找最相关的内容。它突破了传统关键词匹配的局限，实现了基于语义的智能搜索与推荐。

常查热词