Semantic Chunking(语义分块)是什么?
Semantic Chunking 是一种按语义边界(而非固定长度)将文本切分为独立块的技术,广泛应用于检索增强生成(RAG)和知识库问答中,能显著提升检索精度和答案相关性。
一句话解释
Semantic Chunking(语义分块)是一种文本预处理方法,它不按固定的字符数或句子数切割文本,而是根据段落主题、句子含义的完整边界进行智能分割,生成语义独立的文本块。
为什么会被关注
在RAG(检索增强生成)系统中,文档被切分成小块后存入向量数据库。如果切分太机械(比如固定512字一刀切),容易把一句完整的话或一个核心结论切成两半,导致检索时遗漏关键信息。
Semantic Chunking能保留每个块的语义完整性,使检索出的片段更容易被大模型直接使用,避免“断章取义”带来的幻觉。因此,它成为提升AI问答质量的关键优化点。
核心逻辑
语义分块的核心是识别文本中的自然语义边界。常见的做法包括:利用语言模型计算句子间相似度,在相似度骤降的位置断开;或者利用段落标题、换行符、句号等结构的深层含义进行分割。
另一种思路是先用Transformer模型对文本进行编码,再通过聚类或分割算法找到主题转换点。这样产生的块内部主题高度一致,块间差异明显,便于向量检索时的精确匹配。
常见场景
在客服知识库中,用户提问“退款流程”,系统需要精准定位到描述退款步骤的那段文字。如果使用固定长度切分,关键步骤可能被切到两个块里,检索结果支离破碎。
在论文摘要生成中,先将论文按章节和段落语义分块,再对每个块单独分析,能保留原文逻辑结构。此外,法律合同审查、医学文献问答等场景都依赖这一技术。
容易混淆的点
很多人会把Semantic Chunking与Recursive Character Text Splitter混淆。后者虽然也按递归规则切分,但本质上还是基于字符或句子数量,只是增加了重叠(overlap),并不能真正理解语义边界。
另一个误区是认为“块越小越好”。事实上,块太小会丢失上下文,块太大会引入噪声。语义分块的目标是找到“大而完整”的语义单元,而非追求最小粒度。
本文内容用于 AI 热词解释和概念整理,仅供学习和理解参考。若涉及表述偏差或内容修正,欢迎联系站点进行更新。
相关热词Chunking 是一种将长文本或大数据切割成小块(Chunk)的策略,帮助大语言模型在有限上下文窗口内高效处理信息。它直接影响检索增强生成(RAG)的效果,是构建高质量 AI 应用的必修课。
RAG(检索增强生成)是一种将信息检索与大语言模型生成能力相结合的技术范式。它让模型在回答前,先从外部知识库中查找相关文档,然后基于这些检索到的准确信息进行生成,从而显著提升回答的准确性、时效性和可追溯性。
向量检索是一种基于深度学习的技术,它将文本、图像等数据转换为高维空间中的向量(一组数字),并通过计算向量间的相似度来寻找最相关的内容。它突破了传统关键词匹配的局限,实现了基于语义的智能搜索与推荐。

