面包屑图标 当前位置: 首页
AI资讯
热点详情

DeepSeek-R1论文速读要点

AI热点日报
AI热点日报时间:2026-06-29
热点解读

春节临近,DeepSeek再次带来重磅消息——DeepSeek-R1系列模型正式开源。先来看Benchmark成绩:从多个高难度评测结果来看,DeepSeek-R1已能与OpenAI-o1-1217比肩,稳居推理模型的第一梯队。此外,基于Qwen2 5-32B蒸馏得到的DeepSeek-R1-32B

春节临近,DeepSeek再次带来重磅消息——DeepSeek-R1系列模型正式开源。先来看Benchmark成绩:从多个高难度评测结果来看,DeepSeek-R1已能与OpenAI-o1-1217比肩,稳居推理模型的第一梯队。此外,基于Qwen2.5-32B蒸馏得到的DeepSeek-R1-32B同样表现惊艳,与OpenAI-o1-mini不相上下。

DeepSeek-R1论文速读

一直以来,业界对SFT的依赖根深蒂固——已有公开研究无一例外都采用SFT加RL的路线,第一步就需要大量SFT数据来做指令微调。但DeepSeek偏偏不走寻常路。他们发现,即使完全不用SFT,仅靠大规模强化学习(RL)也能显著提升推理能力。如果再加入少量冷启动数据进行SFT,效果还能更上一层楼。

这篇文章有以下几个核心贡献值得关注:

  • DeepSeek-R1-Zero:不依赖SFT,直接上RL,效果依然能打。
  • DeepSeek-R1:加入少量(数千级别)CoT数据做SFT作为冷启动,再跑RL,性能更优,回答也更符合人类偏好。
  • 蒸馏小模型:用DeepSeek-R1的样例去蒸馏小模型,效果惊人。

下面逐一展开说明。

DeepSeek-R1-Zero

直接从DeepSeek-V3-Base开始,沿用DeepSeek独家定制的GRPO,搭配一个看似普通的Prompt模板。奖励模型方面,考虑到是推理任务,没有训练常规的稠密奖励模型,而是结合了两种奖励方式:

  • 准确性奖励:数学问题直接匹配标准答案,代码问题基于编译执行单测试验证。
  • 格式奖励:看CoT过程是否以thinkingresponse标准包裹。

就是这么看起来简单粗暴的方法,效果却出奇地好。随着训练步数增加,性能稳步提升,达到了与OpenAI-o1-0912相近的水平。

并且观察到了明显的“进化”现象——随着训练步数增加,输出平均长度也在增加。这意味着LLM已经在潜移默化中学会进行更多思考和推理,从而获得更好的效果。

甚至还出现了自主的“Aha Moment”情况,模型突然能开始反思。DeepSeek顿悟了,DeepSeek的团队成员们也顿悟了,旁观者似乎也跟着顿悟了——为什么只是平平无奇的奖励信号,就能让它学会这么多?还得是RL!

难道真就这么完美?SFT完全没必要了?显然也不是。DeepSeek的团队也发现了一些问题,比如DeepSeek-R1-Zero生成的答案可读性相对较差,存在混合语言输出(这个现象在QwQ上也比较明显)。为了让模型说“人话”,还是得加点SFT——这就轮到DeepSeek-R1登场了。

DeepSeek-R1

DeepSeek-R1-Zero已经证明,完全不进行SFT直接RL就能显著提升推理能力,但输出的可读性和混合语言输出依然是老大难。别忘了,SFT的初衷就是让LLM学会遵循指令、模仿人类语言。既然完全不SFT也能有非常好的效果,那少量加一点是不是就能让LLM学会说人话,同时推理能力还能再上一层楼?DeepSeek-R1采用了以下4个阶段,进一步强化能力。

少量数据冷启动

采用一定手段收集少量高质量数据:对于长CoT数据,使用few-shot直接提示DeepSeek-R1-Zero通过反思和验证生成详细答案,然后通过人工注释者的后处理来细化结果。总共收集了数千个样本。相比完全不用SFT,这一轮轻量SFT显著增强了可读性,后续实验也证明少量数据冷启动能进一步提升推理能力。

对推理场景进行RL

然后在数学、代码等推理场景上跑RL。方法和DeepSeek-R1-Zero一样,但针对输出中语言混合的情况,额外增加了语言一致性奖励——统计输出中目标语言的占比作为奖励信号,与准确性奖励求和作为最终奖励,进行过程反馈。

拒绝采样和SFT

这一步主要是为了提升模型的通用能力,通过构建两部分数据进行SFT来实现。

  • 推理数据:采用拒绝采样的方式,从前一阶段得到的模型中生成推理过程,并额外引入一些无法用规则进行奖励的数据(这部分用DeepSeek-V3通过LLM-as-judge的方式判定,比较Ground Truth与实际输出)。同时过滤了包含混合语言、长段落、代码块的CoT数据,总计60万样本。
  • 非推理数据:使用DeepSeek-V3生成,复用DeepSeek-V3的SFT数据,共计20万推理无关的样本。

这一阶段总共生成了80万样本,用DeepSeek-V3-Base进行了2个epoch的SFT。

适配所有场景的RL阶段

最后,为了同时平衡推理能力和通用能力,又进行了一次RL。对于不同的数据类型,采用不同的Prompt和奖励。

  • 推理数据:沿用DeepSeek-R1-Zero的方法,在数学、编程和逻辑推理领域使用基于规则的奖励指导学习。
  • 通用数据:使用通用的RM作为奖励,基本复用DeepSeek-V3的方式。有用性评估专注于最终summary,确保对用户的实用性和相关性,尽量减少对底层推理过程的干扰。无害性评估则覆盖整个响应(包括推理过程和总结),识别和减轻生成过程中可能出现的风险、偏见或有害内容。

最终,奖励信号和多样化数据分布的整合,使模型既能保持推理能力,又能满足有用性和无害性,取得了比较好的用户体验。实验结果自然是遥遥领先,与OpenAI-o1-1217不相上下。

蒸馏小模型

直接用DeepSeek-R1阶段三“拒绝采样和SFT”时的数据对小模型做SFT——不含RL阶段——就能取得很好的效果。

一些讨论

蒸馏 vs RL

从实验结果来看,蒸馏既便宜又实用。用一个小模型费劲做SFT加RL,最后的效果还远不如直接蒸馏性能更好模型的输出——就是简单做个SFT。

一些暂未成功的尝试

这里DeepSeek团队诚意满满,分享了几个业界呼声很高但他们暂时没尝试成功的方法。

PRM:指出了PRM的几个主要限制,影响了规模化应用。

  • 在一般推理过程中明确定义细粒度的步骤比较困难。
  • 对步骤打标难以扩展,自动标注准确率不高,手动标注又难以规模化。
  • 引入基于模型的PRM,会不可避免地遇到reward hacking,重新训练奖励模型需要额外资源,并使整个训练流程复杂化。

MCTS:他们也尝试了MCTS,但过程中遇到一些问题。一是搜索空间过大,虽然设置了最大扩展限制,但容易陷入局部最优;二是value model直接影响生成质量,而训练一个细粒度的value model本质上很困难,使得模型难以迭代改进。

一些未来的改进方向

  • 通用能力:DeepSeek-R1的通用能力仍然不及DeepSeek-V3。团队计划探索如何利用长CoT来提升这些领域的任务表现。
  • 语言混合:DeepSeek-R1目前针对中文和英文进行了优化,但在处理其他语言以及语言遵循方面依然存在问题。
  • PE:DeepSeek-R1对Prompt非常敏感,few-shot提示会持续降低性能。建议用户直接描述问题并指定输出格式(zero-shot,不要加示例)以获得最佳结果。
  • 软件工程任务:由于长时间评估会影响RL过程的效率,大规模RL尚未在软件工程任务中广泛应用。因此DeepSeek-R1在软件工程基准测试上未显示出比DeepSeek-V3更大的改进。未来版本计划通过实施拒绝采样或在RL过程中引入异步评估来提高效率。
热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:DeepSeek-R1论文速读要点要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/OpenSourceLLM/2025012312764.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-05 19:47
OmniParser基于AI的解析工具

OmniParser是微软AI驱动的SaaS工具,基于YOLOv8和BLIP-2,将UI截图与漫画页面解析为结构化数据,支持UI元素检测、漫画面板分析、对话框及人脸识别,适用于自动化测试、漫画翻译等场景。

AI热点2026-07-05 19:47
通义灵码智能编码助手助你高效编程

通义灵码是贯穿开发全流程的智能编码助手,具备代码智能生成、研发智能问答、多编程语言及编辑器支持、代码安全隐私保障四大核心能力,适用于学生、新手及企业开发者等多类人群,提升编码效率。

AI热点2026-07-05 19:47
基于AI的自动化道路巡逻与资产数据收集方案

基于人工智能的自动化道路巡逻和资产数据收集方案,通过车载相机自动采集路面及周边资产数据,识别裂缝、坑槽等病害并建立数字化台账,同时自动删除隐私图像,实现从被动响应向主动预防的转变,降低巡检成本。

AI热点2026-07-05 19:47
通义智文AI助你高效阅读全网文章

阿里旗下通义智文是一款智能阅读工具,支持网页、论文、图书和自由阅读四种场景,帮助用户快速提取核心观点,节省阅读时间,适合学生、研究人员及职场人士高效处理大量文本。

延伸阅读