BLEU：机器翻译的自动评分员

本次查询BLEUAI 热词解释结果

中文解释双语评估替补

热词类型评估指标

常见场景用于自动比较机器翻译结果与人工参考译文的相似度 / 快速评估翻译系统性能

一句话解释

BLEU（Bilingual Evaluation Understudy，双语评估替补）是一种自动评估机器翻译质量的指标，通过计算候选译文与人工参考译文中n-gram（连续词序列）的重叠比例来给出0到100之间的分数，分数越高表示译文与参考越接近。

机器翻译发展初期，评估翻译质量主要依赖人工打分，成本高且难以复现。BLEU的出现首次提供了一种低成本、自动化的评估方法，让研究者可以快速对比不同模型的效果。

它虽不完美，但因计算简单、与人类判断有一定相关性，成为了机器翻译领域事实上的标准评估指标，几乎所有论文和开源项目都会报告BLEU得分。

BLEU计算候选译文中每个n-gram（通常n=1到4）在参考译文中出现的次数，并计算这些匹配的精确率。为避免短译文分数虚高，它还加入了“短句惩罚因子”（Brevity Penalty），当候选译文长度明显短于参考时降低得分。

最终BLEU分数是不同n-gram精确率的几何平均再乘以惩罚因子，因此它能同时衡量词汇和短语级别的匹配程度，但又完全忽略语法和语义正确性。

在机器翻译模型的训练和调参阶段，研究人员会定期用BLEU验证集评估模型性能，选择分数最高的检查点作为最终模型。

论文中对比不同翻译系统时，BLEU是必备的指标；在工业部署中，它也常用于质量监控，比如将线上翻译结果与标准参考对比，发现异常波动。

很多人误以为BLEU高分就等于翻译质量好，但其实它只衡量词汇重叠，不关心语法是否通顺、语义是否准确。一个用大量同义词堆砌的译文可能BLEU很低，而一个语法错误但词汇匹配的译文分数反而高。

BLEU与ROUGE（常用于文本摘要）原理相似但侧重点不同：BLEU更注重精确率（翻译结果是否准确），而ROUGE注重召回率（参考译文的信息是否都被覆盖）。两者不能混用。

来源：AI 热词解释频道整理

BLEU 机器翻译评估指标 n-gram 自然语言处理

本文内容用于 AI 热词解释和概念整理，仅供学习和理解参考。若涉及表述偏差或内容修正，欢迎联系站点进行更新。

相关热词

自然语言处理更新：2026-05-14

自然语言处理是人工智能领域的关键分支，致力于让计算机理解、解释和生成人类语言，是实现人机自然交互的核心技术。

常查热词