数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

哈工大团队首篇DeepSeek R1多语言能力全面分析

AI热点日报时间：2026-06-30

热点解读

DeepSeek-R1最近的热度有目共睹，但很多人关注的是它的推理能力，多语言表现反倒成了盲区。哈尔滨工业大学团队最新发布的一项研究，正好填补了这个缺口——他们对o1-Like模型（包括DeepSeek-R1、OpenAI o1等）做了一次系统的多语言翻译能力评估，结果既有惊喜，也暴露了新的问题。

哈工大团队：首篇DeepSeek R1的多语言能力全面分析！

传统大模型的多语言能力已经相当成熟，而加入深度推理链的o1-Like模型，能否在翻译这个老行当上更进一步？实验给出了明确答案：在一些任务上确实做到了，但代价是推理成本激增，甚至出现了“漫谈”这种新毛病。这对于实际选型（是直接用传统模型还是上推理模型）有直接参考价值。

1. 背景介绍

类o1模型（包括OpenAI o1、QwQ、Marco-o1、DeepSeek-R1等）以深度推理见长，能模拟人类一步步思考的过程。多语言机器翻译（MMT）则是一项难度很高的任务，要兼顾语义、文化、术语等多方面。此前大模型在翻译上已经表现不错，但类o1模型在这方面的能力还没被系统研究过。本研究主要回答两个问题：相比传统LLM，类o1模型在各种翻译任务中表现如何？哪些因素影响了它们的翻译质量？

2. 类o1模型在多语言翻译任务中的表现

研究选取了多个闭源和开源的类o1模型，与ChatGPT、GPT-4o等传统LLM做对比测试。

2.1 多语言翻译能力

在Flores-200数据集上的测试结果（表1）显示：闭源类o1模型整体表现最优，其中OpenAI o1的BLEU得分最高提升了34.5。平均而言，类o1模型的BLEU分数比其他模型高出11.14分。开源模型里，DeepSeek-R1表现最好，平均BLEU得分提升约16.92。有趣的是，参数量较小的Marco-o1（7B）和DRT-o1（14B）在某些指标上接近闭源模型，这意味着用小参数开源模型做多语言翻译是个值得关注的方向。

另外，实验还发现一个有意思的现象：类o1模型在COMET和BLEURT指标上的提升比BLEU明显得多，甚至在有些数据集上BLEU低于传统模型，但COMET和BLEURT却更高。这是因为深度思考让输出更加多样化，会使用不同的词汇和句式，但意思保留得很好。而BLEU过于依赖参考译文的字面匹配，不适合评价这类模型；COMET和BLEURT则更客观，未来应该作为主要评估指标。

2.2 常识推理类翻译

在CommonsenseMT数据集上，Lexical任务中OpenAI o1继续领先，COMET和BLEURT分别比GPT-4o高2.00和3.89。但在Contextless和Contextual任务中，传统LLM反而更好。原因在于：缺乏上下文来源文本时，类o1模型在思考过程中容易产生幻觉，而传统模型直接翻译反而更可靠。所以，要提升常识翻译中的可靠性，需要设计外部模块来抑制思考过程中的幻觉。

2.3 特定文化类翻译

在Culture MT数据集上，以英语为源语言时，类o1模型相比GPT-4o在BLEU、COMET、BLEURT上平均最大提升分别为4.71、6.88、7.23。在以英语为目标语言的任务中，Marco-o1（7B参数）在BLEURT上甚至比OpenAI o1还高1.80。案例分析发现，类o1模型在思考过程中会自然融入对文化术语的本地化理解，翻译更地道。

2.4 专有术语翻译

在RTT数据集上，传统LLM反而更强。ChatGPT在COMET和BLEURT上比类o1模型高约7.67和8.49。原因是类o1模型在推理中容易引入错误信息，影响到专有名词的翻译。未来通过设计外部知识结构来提升专有名词翻译水平，是个不错的方向。

3. 影响翻译性能的因素分析

3.1 推理成本

与传统LLM相比，类o1模型需要的输出token多约10倍，时间成本多8到40倍。思考过程产生的额外输出大幅降低了推理速度。在翻译质量和实时性能之间找到平衡点，是个难点。

3.2 指令遵循能力

使用CommonsenseMT中的Contextless任务测试发现，类o1模型尽管经过复杂的思维链训练，仍有3%到10%的概率不遵循指令。其中QwQ的问题尤其严重，会生成一组与源句相关但不直接翻译的句子——研究团队称这一现象为“漫谈”（rambling）。这不仅增加了计算开销，还降低了翻译质量（见图2和图5）。保持和改进指令遵循能力是提升类o1模型性能的关键方向。

3.3 参数规模影响

实验显示，在10B到20B参数范围内，增大参数量能带来明显提升；超过这个范围，继续增加参数带来的边际收益很小，甚至在个别任务上还会下降。说明不是越大越好，存在一个“甜区”。

3.4 温度参数影响

用DeepSeek-R1-671B在Flores-200上测试不同温度（0.0到1.0），结果发现：较低的温度更有利于产生稳定、准确的翻译。不同任务的最佳温度略有不同。在评价指标方面，BLEU和COMET对温度变化更敏感，而BLEURT受影响较小，这也印证了BLEURT更适合评估多样化翻译。

附：一个完整的模型漫谈（Rambling）问题的例子

（图5展示了完整例子，此处省略具体内容）

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：哈工大团队首篇DeepSeek R1多语言能力全面分析要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/LargeLanguageModel/2025022212904.html

ai 人工智能

上一篇：机加工设备维保场景中RAGFlow与DeepSeek-R1:14b的详细落地案例

下一篇：微软创新大模型一张图片即可生成游戏游戏界ChatGPT来了

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周AI驱动的Degiro投资组合跟踪与可视化工具 02 / 本周Lorna基于CFMS数据驱动决策的投资平台 03 / 本周前街购买记录追踪查询方法 04 / 本周一款专业Finta AI驱动筹款助手，高效智能募资工具 05 / 本周人工智能股票预测与多金融工具交易信号

01 / 本月AI驱动的Degiro投资组合跟踪与可视化工具 02 / 本月Lorna基于CFMS数据驱动决策的投资平台 03 / 本月前街购买记录追踪查询方法 04 / 本月一款专业Finta AI驱动筹款助手，高效智能募资工具 05 / 本月人工智能股票预测与多金融工具交易信号

热点快看

06-30 19:04AI驱动的Degiro投资组合跟踪与可视化工具 06-30 19:04Lorna基于CFMS数据驱动决策的投资平台 06-30 19:03前街购买记录追踪查询方法 06-30 19:03一款专业Finta AI驱动筹款助手，高效智能募资工具 06-30 19:03人工智能股票预测与多金融工具交易信号

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别