面包屑图标 当前位置: 首页
AI热词解释
热词解释详情

BLEU:机器翻译的自动评分员

本次查询BLEUAI 热词解释结果
中文解释双语评估替补
热词类型评估指标
常见场景用于自动比较机器翻译结果与人工参考译文的相似度 / 快速评估翻译系统性能
AI 热词频道
AI 热词频道更新时间:2026-06-02

BLEU是一种自动评估机器翻译质量的指标,通过比较候选译文与参考译文中n-gram的重叠程度来打分,广泛应用于翻译系统开发和学术研究。

一句话解释

BLEU(Bilingual Evaluation Understudy,双语评估替补)是一种自动评估机器翻译质量的指标,通过计算候选译文与人工参考译文中n-gram(连续词序列)的重叠比例来给出0到100之间的分数,分数越高表示译文与参考越接近。

为什么会被关注

机器翻译发展初期,评估翻译质量主要依赖人工打分,成本高且难以复现。BLEU的出现首次提供了一种低成本、自动化的评估方法,让研究者可以快速对比不同模型的效果。

它虽不完美,但因计算简单、与人类判断有一定相关性,成为了机器翻译领域事实上的标准评估指标,几乎所有论文和开源项目都会报告BLEU得分。

核心逻辑

BLEU计算候选译文中每个n-gram(通常n=1到4)在参考译文中出现的次数,并计算这些匹配的精确率。为避免短译文分数虚高,它还加入了“短句惩罚因子”(Brevity Penalty),当候选译文长度明显短于参考时降低得分。

最终BLEU分数是不同n-gram精确率的几何平均再乘以惩罚因子,因此它能同时衡量词汇和短语级别的匹配程度,但又完全忽略语法和语义正确性。

常见场景

在机器翻译模型的训练和调参阶段,研究人员会定期用BLEU验证集评估模型性能,选择分数最高的检查点作为最终模型。

论文中对比不同翻译系统时,BLEU是必备的指标;在工业部署中,它也常用于质量监控,比如将线上翻译结果与标准参考对比,发现异常波动。

容易混淆的点

很多人误以为BLEU高分就等于翻译质量好,但其实它只衡量词汇重叠,不关心语法是否通顺、语义是否准确。一个用大量同义词堆砌的译文可能BLEU很低,而一个语法错误但词汇匹配的译文分数反而高。

BLEU与ROUGE(常用于文本摘要)原理相似但侧重点不同:BLEU更注重精确率(翻译结果是否准确),而ROUGE注重召回率(参考译文的信息是否都被覆盖)。两者不能混用。

来源:AI 热词解释频道整理
BLEU 机器翻译 评估指标 n-gram 自然语言处理
内容声明

本文内容用于 AI 热词解释和概念整理,仅供学习和理解参考。若涉及表述偏差或内容修正,欢迎联系站点进行更新。

相关热词
自然语言处理更新:2026-05-14
自然语言处理:让机器理解人类语言的技术

自然语言处理是人工智能领域的关键分支,致力于让计算机理解、解释和生成人类语言,是实现人机自然交互的核心技术。