哈工大团队首篇DeepSeek R1多语言能力全面分析
DeepSeek-R1最近的热度有目共睹,但很多人关注的是它的推理能力,多语言表现反倒成了盲区。哈尔滨工业大学团队最新发布的一项研究,正好填补了这个缺口——他们对o1-Like模型(包括DeepSeek-R1、OpenAI o1等)做了一次系统的多语言翻译能力评估,结果既有惊喜,也暴露了新的问题。
DeepSeek-R1最近的热度有目共睹,但很多人关注的是它的推理能力,多语言表现反倒成了盲区。哈尔滨工业大学团队最新发布的一项研究,正好填补了这个缺口——他们对o1-Like模型(包括DeepSeek-R1、OpenAI o1等)做了一次系统的多语言翻译能力评估,结果既有惊喜,也暴露了新的问题。

传统大模型的多语言能力已经相当成熟,而加入深度推理链的o1-Like模型,能否在翻译这个老行当上更进一步?实验给出了明确答案:在一些任务上确实做到了,但代价是推理成本激增,甚至出现了“漫谈”这种新毛病。这对于实际选型(是直接用传统模型还是上推理模型)有直接参考价值。
1. 背景介绍
类o1模型(包括OpenAI o1、QwQ、Marco-o1、DeepSeek-R1等)以深度推理见长,能模拟人类一步步思考的过程。多语言机器翻译(MMT)则是一项难度很高的任务,要兼顾语义、文化、术语等多方面。此前大模型在翻译上已经表现不错,但类o1模型在这方面的能力还没被系统研究过。本研究主要回答两个问题:相比传统LLM,类o1模型在各种翻译任务中表现如何?哪些因素影响了它们的翻译质量?
2. 类o1模型在多语言翻译任务中的表现
研究选取了多个闭源和开源的类o1模型,与ChatGPT、GPT-4o等传统LLM做对比测试。
2.1 多语言翻译能力
在Flores-200数据集上的测试结果(表1)显示:闭源类o1模型整体表现最优,其中OpenAI o1的BLEU得分最高提升了34.5。平均而言,类o1模型的BLEU分数比其他模型高出11.14分。开源模型里,DeepSeek-R1表现最好,平均BLEU得分提升约16.92。有趣的是,参数量较小的Marco-o1(7B)和DRT-o1(14B)在某些指标上接近闭源模型,这意味着用小参数开源模型做多语言翻译是个值得关注的方向。
另外,实验还发现一个有意思的现象:类o1模型在COMET和BLEURT指标上的提升比BLEU明显得多,甚至在有些数据集上BLEU低于传统模型,但COMET和BLEURT却更高。这是因为深度思考让输出更加多样化,会使用不同的词汇和句式,但意思保留得很好。而BLEU过于依赖参考译文的字面匹配,不适合评价这类模型;COMET和BLEURT则更客观,未来应该作为主要评估指标。
2.2 常识推理类翻译
在CommonsenseMT数据集上,Lexical任务中OpenAI o1继续领先,COMET和BLEURT分别比GPT-4o高2.00和3.89。但在Contextless和Contextual任务中,传统LLM反而更好。原因在于:缺乏上下文来源文本时,类o1模型在思考过程中容易产生幻觉,而传统模型直接翻译反而更可靠。所以,要提升常识翻译中的可靠性,需要设计外部模块来抑制思考过程中的幻觉。
2.3 特定文化类翻译
在Culture MT数据集上,以英语为源语言时,类o1模型相比GPT-4o在BLEU、COMET、BLEURT上平均最大提升分别为4.71、6.88、7.23。在以英语为目标语言的任务中,Marco-o1(7B参数)在BLEURT上甚至比OpenAI o1还高1.80。案例分析发现,类o1模型在思考过程中会自然融入对文化术语的本地化理解,翻译更地道。
2.4 专有术语翻译
在RTT数据集上,传统LLM反而更强。ChatGPT在COMET和BLEURT上比类o1模型高约7.67和8.49。原因是类o1模型在推理中容易引入错误信息,影响到专有名词的翻译。未来通过设计外部知识结构来提升专有名词翻译水平,是个不错的方向。
3. 影响翻译性能的因素分析
3.1 推理成本
与传统LLM相比,类o1模型需要的输出token多约10倍,时间成本多8到40倍。思考过程产生的额外输出大幅降低了推理速度。在翻译质量和实时性能之间找到平衡点,是个难点。
3.2 指令遵循能力
使用CommonsenseMT中的Contextless任务测试发现,类o1模型尽管经过复杂的思维链训练,仍有3%到10%的概率不遵循指令。其中QwQ的问题尤其严重,会生成一组与源句相关但不直接翻译的句子——研究团队称这一现象为“漫谈”(rambling)。这不仅增加了计算开销,还降低了翻译质量(见图2和图5)。保持和改进指令遵循能力是提升类o1模型性能的关键方向。
3.3 参数规模影响
实验显示,在10B到20B参数范围内,增大参数量能带来明显提升;超过这个范围,继续增加参数带来的边际收益很小,甚至在个别任务上还会下降。说明不是越大越好,存在一个“甜区”。
3.4 温度参数影响
用DeepSeek-R1-671B在Flores-200上测试不同温度(0.0到1.0),结果发现:较低的温度更有利于产生稳定、准确的翻译。不同任务的最佳温度略有不同。在评价指标方面,BLEU和COMET对温度变化更敏感,而BLEURT受影响较小,这也印证了BLEURT更适合评估多样化翻译。
附:一个完整的模型漫谈(Rambling)问题的例子
(图5展示了完整例子,此处省略具体内容)
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:哈工大团队首篇DeepSeek R1多语言能力全面分析要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点在 Degiro 上进行投资的用户,常常会遇到一个共同的痛点:平台自带的数据展示较为基础,若想获取更深入的投资组合分析、风险指标,甚至对未来走势做出预测,通常只能借助 Excel 手动处理。不过,现在有一款 Chrome 扩展程序可以完美解决这一难题——Mercury,专为 Degiro 用户量身打
在投资决策过程中,客观数据往往比主观直觉更值得信赖。名为Lorna的智能平台,运用独特的现金流分析体系,帮助投资者穿透虚饰的财务报表,直达企业真实的财务健康状况。 什么是Lorna?——数据驱动的现金流分析投资工具 简而言之,Lorna是一个以数据为核心驱动力的投资分析工具。其核心利器是独创的“现金
Front Street自动追踪你的每一笔消费,整合各类忠诚度计划,并提供财务洞察与省钱妙招——说白了,就是帮你把钱&包管得明明白白。 什么是Front Street? 简单讲,Front Street就是你的购物管家。它自动记录你在每个品牌、每家店的所有购买行为,然后把零散的忠诚度计划全部整合到一
在创投圈深耕多年,你会发现一个普遍难题:融资过程中,投资者关系维护、尽职调查、潜在投资人挖掘……这些环节往往耗费巨大精力,却又直接决定成败。如果能有一款工具将这些琐事自动化,让团队聚焦于真正重要的沟通与战略决策,那该多理想?Finta 正是为此而生。 什么是Finta? Finta 本质上是一款 A
- 日榜
- 周榜
- 月榜
热点快看
