Dense Retrieval 密集检索是什么?
Dense Retrieval(密集检索 / 稠密检索)是一种基于神经网络将文本映射为稠密向量,再通过向量相似度匹配来寻找相关信息的技术。它突破了传统关键词匹配只能处理字面重叠的局限,能够理解同义、近义和上下文语义,是现代语义搜索引擎和问答系统的核心技术之一。
一句话解释
Dense Retrieval 就是用神经网络把每段文本转换成一个高维的“语义坐标”,然后通过计算坐标之间的“距离”来找出含义最相似的内容,而非只看字面是否包含相同的关键词。
为什么会被关注
传统的关键词检索(如BM25)对同义词、语序变化、抽象表述无能为力,导致用户经常搜不到想要的内容。Dense Retrieval 能够捕捉深层语义,显著提升搜索和推荐的准确率,因此被搜索引擎、问答平台和推荐系统广泛采用。
在大模型浪潮中,RAG(检索增强生成)需要高效、准确的检索组件,Dense Retrieval 成为连接海量知识和生成模型的关键桥梁,直接影响了对话机器人和知识问答产品的实用效果。
核心逻辑
首先用预训练语言模型(如BERT、Sentence-BERT)将查询和候选文档分别编码成固定长度的稠密向量(通常几百维)。这些向量在语义空间中形成高维分布:语义越接近的文本,其向量夹角越小、欧氏距离越短。
检索时,系统不再依赖倒排索引和词频统计,而是通过内积或余弦相似度计算查询向量与全部候选向量的距离,然后返回距离最小的前 K 个结果。为了加速大规模向量匹配,通常配合近似最近邻(ANN)索引使用。
常见场景
企业知识库搜索:员工输入“上季度营收多少”,系统通过 Dense Retrieval 找到包含“Q2财务报告”“收入数据”等内容页,即使页面上没有“上季度”“营收”这些词也能命中。
智能客服与文档检索:用户问“怎么退款”,系统从数千篇帮助文档中定位到“取消订单并申请退款”的相关章节,并返回给对话机器人生成答复。
个性化推荐:在内容平台中,将用户行为序列和目标文章编码为向量,利用 Dense Retrieval 从海量文章库中召回兴趣匹配的内容。
容易混淆的点
Dense Retrieval 不等于全文语义搜索:语义搜索是目标,Dense Retrieval 是技术实现路径之一,还有基于稀疏向量+扩展的方法(如SPLADE等)。
Dense Retrieval 的向量模型与向量数据库的关系:向量数据库是存储和检索向量的基础设施,而 Dense Retrieval 侧重如何将文本转化为有意义的向量以及如何进行匹配训练。
不是所有向量检索都是 Dense Retrieval:如果把词袋模型直接映射为稀疏向量(如TF-IDF向量),虽然也是向量空间,但属于稀疏检索。Dense Retrieval 特指使用神经网络生成的密集、连续的低维向量。
本文内容用于 AI 热词解释和概念整理,仅供学习和理解参考。若涉及表述偏差或内容修正,欢迎联系站点进行更新。
相关热词向量检索是一种基于深度学习的技术,它将文本、图像等数据转换为高维空间中的向量(一组数字),并通过计算向量间的相似度来寻找最相关的内容。它突破了传统关键词匹配的局限,实现了基于语义的智能搜索与推荐。

