DeepSeek-R1论文速读要点
春节临近,DeepSeek再次带来重磅消息——DeepSeek-R1系列模型正式开源。先来看Benchmark成绩:从多个高难度评测结果来看,DeepSeek-R1已能与OpenAI-o1-1217比肩,稳居推理模型的第一梯队。此外,基于Qwen2 5-32B蒸馏得到的DeepSeek-R1-32B
春节临近,DeepSeek再次带来重磅消息——DeepSeek-R1系列模型正式开源。先来看Benchmark成绩:从多个高难度评测结果来看,DeepSeek-R1已能与OpenAI-o1-1217比肩,稳居推理模型的第一梯队。此外,基于Qwen2.5-32B蒸馏得到的DeepSeek-R1-32B同样表现惊艳,与OpenAI-o1-mini不相上下。

一直以来,业界对SFT的依赖根深蒂固——已有公开研究无一例外都采用SFT加RL的路线,第一步就需要大量SFT数据来做指令微调。但DeepSeek偏偏不走寻常路。他们发现,即使完全不用SFT,仅靠大规模强化学习(RL)也能显著提升推理能力。如果再加入少量冷启动数据进行SFT,效果还能更上一层楼。
这篇文章有以下几个核心贡献值得关注:
- DeepSeek-R1-Zero:不依赖SFT,直接上RL,效果依然能打。
- DeepSeek-R1:加入少量(数千级别)CoT数据做SFT作为冷启动,再跑RL,性能更优,回答也更符合人类偏好。
- 蒸馏小模型:用DeepSeek-R1的样例去蒸馏小模型,效果惊人。
下面逐一展开说明。
DeepSeek-R1-Zero
直接从DeepSeek-V3-Base开始,沿用DeepSeek独家定制的GRPO,搭配一个看似普通的Prompt模板。奖励模型方面,考虑到是推理任务,没有训练常规的稠密奖励模型,而是结合了两种奖励方式:
- 准确性奖励:数学问题直接匹配标准答案,代码问题基于编译执行单测试验证。
- 格式奖励:看CoT过程是否以
thinking和response标准包裹。
就是这么看起来简单粗暴的方法,效果却出奇地好。随着训练步数增加,性能稳步提升,达到了与OpenAI-o1-0912相近的水平。
并且观察到了明显的“进化”现象——随着训练步数增加,输出平均长度也在增加。这意味着LLM已经在潜移默化中学会进行更多思考和推理,从而获得更好的效果。
甚至还出现了自主的“Aha Moment”情况,模型突然能开始反思。DeepSeek顿悟了,DeepSeek的团队成员们也顿悟了,旁观者似乎也跟着顿悟了——为什么只是平平无奇的奖励信号,就能让它学会这么多?还得是RL!
难道真就这么完美?SFT完全没必要了?显然也不是。DeepSeek的团队也发现了一些问题,比如DeepSeek-R1-Zero生成的答案可读性相对较差,存在混合语言输出(这个现象在QwQ上也比较明显)。为了让模型说“人话”,还是得加点SFT——这就轮到DeepSeek-R1登场了。
DeepSeek-R1
DeepSeek-R1-Zero已经证明,完全不进行SFT直接RL就能显著提升推理能力,但输出的可读性和混合语言输出依然是老大难。别忘了,SFT的初衷就是让LLM学会遵循指令、模仿人类语言。既然完全不SFT也能有非常好的效果,那少量加一点是不是就能让LLM学会说人话,同时推理能力还能再上一层楼?DeepSeek-R1采用了以下4个阶段,进一步强化能力。
少量数据冷启动
采用一定手段收集少量高质量数据:对于长CoT数据,使用few-shot直接提示DeepSeek-R1-Zero通过反思和验证生成详细答案,然后通过人工注释者的后处理来细化结果。总共收集了数千个样本。相比完全不用SFT,这一轮轻量SFT显著增强了可读性,后续实验也证明少量数据冷启动能进一步提升推理能力。
对推理场景进行RL
然后在数学、代码等推理场景上跑RL。方法和DeepSeek-R1-Zero一样,但针对输出中语言混合的情况,额外增加了语言一致性奖励——统计输出中目标语言的占比作为奖励信号,与准确性奖励求和作为最终奖励,进行过程反馈。
拒绝采样和SFT
这一步主要是为了提升模型的通用能力,通过构建两部分数据进行SFT来实现。
- 推理数据:采用拒绝采样的方式,从前一阶段得到的模型中生成推理过程,并额外引入一些无法用规则进行奖励的数据(这部分用DeepSeek-V3通过LLM-as-judge的方式判定,比较Ground Truth与实际输出)。同时过滤了包含混合语言、长段落、代码块的CoT数据,总计60万样本。
- 非推理数据:使用DeepSeek-V3生成,复用DeepSeek-V3的SFT数据,共计20万推理无关的样本。
这一阶段总共生成了80万样本,用DeepSeek-V3-Base进行了2个epoch的SFT。
适配所有场景的RL阶段
最后,为了同时平衡推理能力和通用能力,又进行了一次RL。对于不同的数据类型,采用不同的Prompt和奖励。
- 推理数据:沿用DeepSeek-R1-Zero的方法,在数学、编程和逻辑推理领域使用基于规则的奖励指导学习。
- 通用数据:使用通用的RM作为奖励,基本复用DeepSeek-V3的方式。有用性评估专注于最终summary,确保对用户的实用性和相关性,尽量减少对底层推理过程的干扰。无害性评估则覆盖整个响应(包括推理过程和总结),识别和减轻生成过程中可能出现的风险、偏见或有害内容。
最终,奖励信号和多样化数据分布的整合,使模型既能保持推理能力,又能满足有用性和无害性,取得了比较好的用户体验。实验结果自然是遥遥领先,与OpenAI-o1-1217不相上下。
蒸馏小模型
直接用DeepSeek-R1阶段三“拒绝采样和SFT”时的数据对小模型做SFT——不含RL阶段——就能取得很好的效果。
一些讨论
蒸馏 vs RL
从实验结果来看,蒸馏既便宜又实用。用一个小模型费劲做SFT加RL,最后的效果还远不如直接蒸馏性能更好模型的输出——就是简单做个SFT。
一些暂未成功的尝试
这里DeepSeek团队诚意满满,分享了几个业界呼声很高但他们暂时没尝试成功的方法。
PRM:指出了PRM的几个主要限制,影响了规模化应用。
- 在一般推理过程中明确定义细粒度的步骤比较困难。
- 对步骤打标难以扩展,自动标注准确率不高,手动标注又难以规模化。
- 引入基于模型的PRM,会不可避免地遇到reward hacking,重新训练奖励模型需要额外资源,并使整个训练流程复杂化。
MCTS:他们也尝试了MCTS,但过程中遇到一些问题。一是搜索空间过大,虽然设置了最大扩展限制,但容易陷入局部最优;二是value model直接影响生成质量,而训练一个细粒度的value model本质上很困难,使得模型难以迭代改进。
一些未来的改进方向
- 通用能力:DeepSeek-R1的通用能力仍然不及DeepSeek-V3。团队计划探索如何利用长CoT来提升这些领域的任务表现。
- 语言混合:DeepSeek-R1目前针对中文和英文进行了优化,但在处理其他语言以及语言遵循方面依然存在问题。
- PE:DeepSeek-R1对Prompt非常敏感,few-shot提示会持续降低性能。建议用户直接描述问题并指定输出格式(zero-shot,不要加示例)以获得最佳结果。
- 软件工程任务:由于长时间评估会影响RL过程的效率,大规模RL尚未在软件工程任务中广泛应用。因此DeepSeek-R1在软件工程基准测试上未显示出比DeepSeek-V3更大的改进。未来版本计划通过实施拒绝采样或在RL过程中引入异步评估来提高效率。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:DeepSeek-R1论文速读要点要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点OmniParser是微软AI驱动的SaaS工具,基于YOLOv8和BLIP-2,将UI截图与漫画页面解析为结构化数据,支持UI元素检测、漫画面板分析、对话框及人脸识别,适用于自动化测试、漫画翻译等场景。
通义灵码是贯穿开发全流程的智能编码助手,具备代码智能生成、研发智能问答、多编程语言及编辑器支持、代码安全隐私保障四大核心能力,适用于学生、新手及企业开发者等多类人群,提升编码效率。
基于人工智能的自动化道路巡逻和资产数据收集方案,通过车载相机自动采集路面及周边资产数据,识别裂缝、坑槽等病害并建立数字化台账,同时自动删除隐私图像,实现从被动响应向主动预防的转变,降低巡检成本。
阿里旗下通义智文是一款智能阅读工具,支持网页、论文、图书和自由阅读四种场景,帮助用户快速提取核心观点,节省阅读时间,适合学生、研究人员及职场人士高效处理大量文本。
- 日榜
- 周榜
- 月榜
热点快看
