面包屑图标 当前位置: 首页
AI热词解释
热词解释详情

Sparse Retrieval 稀疏检索

本次查询Sparse RetrievalAI 热词解释结果
中文解释稀疏检索
热词类型信息检索技术
常见场景RAG系统中的文档检索 / 企业知识库问答 / 搜索引擎关键词匹配 / 法律文书检索
AI 热词频道
AI 热词频道更新时间:2026-06-01

稀疏检索是一种基于词频和倒排索引的信息检索方法,与稠密检索形成互补,在RAG、知识库搜索等场景中扮演关键角色。

一句话解释

稀疏检索通过将文档和查询表示为高维稀疏向量(大部分元素为0),利用词频和逆文档频率等统计指标计算相似度,从而快速找到包含特定关键词的文档。

为什么会被关注

在大模型RAG(检索增强生成)中,稀疏检索能以极低成本实现关键词层面的精确召回,避免稠密检索可能遗漏的稀有术语或专业名词。

同时,其计算效率高、可解释性强,尤其适合法律、医疗等领域对精确匹配有硬性需求的场景,因此重新成为AI应用的热点。

核心逻辑

核心在于将文本转化为稀疏向量:每个维度对应一个词项,值为该词在文档中的权重(如TF-IDF)。查询同样转为向量后,通过余弦相似度或内积计算相关性。

底层依赖倒排索引结构,记录每个词项出现在哪些文档及出现次数,从而实现毫秒级检索。BM25是对TF-IDF的改进,加入文档长度归一化和饱和函数,效果更优。

常见场景

RAG系统中通常与稠密检索组成混合检索,先用稀疏检索快速过滤出候选文档,再用稠密向量精排,兼顾召回率和准确率。

企业级知识库搜索、电商商品搜索(如精确型号匹配)、文献查重等场景中,稀疏检索仍是不可替代的基础组件。

容易混淆的点

稀疏检索≠低精度:虽然基于关键词,但BM25等算法在众多基准测试中与稠密检索效果相当,尤其对于长尾词和低频术语。

稀疏检索与稠密检索并非互斥,而是互补:前者擅长精确匹配,后者擅长语义相似,实际应用中通常组合使用。

来源:AI 热词解释频道整理
Sparse Retrieval BM25 TF-IDF 倒排索引 稠密检索
内容声明

本文内容用于 AI 热词解释和概念整理,仅供学习和理解参考。若涉及表述偏差或内容修正,欢迎联系站点进行更新。

相关热词
向量检索更新:2026-05-14
向量检索:让AI“理解”你的搜索意图

向量检索是一种基于深度学习的技术,它将文本、图像等数据转换为高维空间中的向量(一组数字),并通过计算向量间的相似度来寻找最相关的内容。它突破了传统关键词匹配的局限,实现了基于语义的智能搜索与推荐。