Sparse Retrieval 稀疏检索
稀疏检索是一种基于词频和倒排索引的信息检索方法,与稠密检索形成互补,在RAG、知识库搜索等场景中扮演关键角色。
一句话解释
稀疏检索通过将文档和查询表示为高维稀疏向量(大部分元素为0),利用词频和逆文档频率等统计指标计算相似度,从而快速找到包含特定关键词的文档。
为什么会被关注
在大模型RAG(检索增强生成)中,稀疏检索能以极低成本实现关键词层面的精确召回,避免稠密检索可能遗漏的稀有术语或专业名词。
同时,其计算效率高、可解释性强,尤其适合法律、医疗等领域对精确匹配有硬性需求的场景,因此重新成为AI应用的热点。
核心逻辑
核心在于将文本转化为稀疏向量:每个维度对应一个词项,值为该词在文档中的权重(如TF-IDF)。查询同样转为向量后,通过余弦相似度或内积计算相关性。
底层依赖倒排索引结构,记录每个词项出现在哪些文档及出现次数,从而实现毫秒级检索。BM25是对TF-IDF的改进,加入文档长度归一化和饱和函数,效果更优。
常见场景
RAG系统中通常与稠密检索组成混合检索,先用稀疏检索快速过滤出候选文档,再用稠密向量精排,兼顾召回率和准确率。
企业级知识库搜索、电商商品搜索(如精确型号匹配)、文献查重等场景中,稀疏检索仍是不可替代的基础组件。
容易混淆的点
稀疏检索≠低精度:虽然基于关键词,但BM25等算法在众多基准测试中与稠密检索效果相当,尤其对于长尾词和低频术语。
稀疏检索与稠密检索并非互斥,而是互补:前者擅长精确匹配,后者擅长语义相似,实际应用中通常组合使用。
本文内容用于 AI 热词解释和概念整理,仅供学习和理解参考。若涉及表述偏差或内容修正,欢迎联系站点进行更新。
相关热词向量检索是一种基于深度学习的技术,它将文本、图像等数据转换为高维空间中的向量(一组数字),并通过计算向量间的相似度来寻找最相关的内容。它突破了传统关键词匹配的局限,实现了基于语义的智能搜索与推荐。

