面包屑图标 当前位置: 首页
AI资讯
热点详情

DeepSeek-R1核心技术架构与训练原理及实现机制详解

AI热点日报
AI热点日报时间:2026-06-29
热点解读

OpenAI的o1系列模型开辟了全新发展方向——通过延长思维链(Chain-of-Thought),在推理环节投入更多计算资源,从而在数学、编程等需要严谨逻辑的任务上实现了重大进步。此前,业界也尝试过基于过程的奖励模型、强化学习、蒙特卡洛树搜索、Beam Search等方法,但都没能在通用推理性能上

OpenAI的o1系列模型开辟了全新发展方向——通过延长思维链(Chain-of-Thought),在推理环节投入更多计算资源,从而在数学、编程等需要严谨逻辑的任务上实现了重大进步。此前,业界也尝试过基于过程的奖励模型、强化学习、蒙特卡洛树搜索、Beam Search等方法,但都没能在通用推理性能上真正达到o1的水平。

DeepSeek-AI这次聚焦于更为大胆的路径:采用纯强化学习(RL)来激发语言模型的推理潜能,并且完全摒弃任何监督数据。他们想探究,大语言模型能否仅靠RL实现自我进化,自主发展出推理能力。基于这一思路,他们推出了两款模型:DeepSeek-R1-Zero和DeepSeek-R1。其中,DeepSeek-R1在推理任务上的表现,已经能够与OpenAI-o1-1217一较高下,具体对比如下图所示。

DeepSeek-R1技术详解

DeepSeek-R1-Zero仅通过强化学习训练,未使用任何监督微调(SFT),但已经展现出令人惊叹的推理实力。不过,它也暴露出一些问题:输出内容的可读性不佳,且语言混杂现象严重。相比之下,DeepSeek-R1在RL之前引入了多阶段训练和冷启动数据,弥补了这些不足,同时进一步强化了推理性能,最终与OpenAI-o1-1217不分伯仲。

DeepSeek-R1-Zero的训练策略详解

DeepSeek-R1-Zero以DeepSeek-V3-Base为基础模型,采用的RL框架是组相对策略优化(GRPO)。这一框架的巧妙之处在于,它通过组评分来估算基准,从而省去了通常需要的、与策略模型同等规模的价值模型。具体而言,针对每个问题,GRPO从旧策略中采样一组输出,然后通过最大化一个目标函数来优化策略模型。

其中的优势函数,是用每组输出对应的奖励组来计算的。而奖励机制本身相当简洁,仅包含两类:

  • 准确性奖励:判断回答是否正确。
  • 格式奖励:强制模型将思维过程置于'think''response'标签之间。

下图展示了DeepSeek-R1-Zero在AIME 2024基准测试上的性能变化轨迹。随着RL训练的持续推进,模型表现稳步提升。最显著的是,AIME 2024上的平均pass@1从初始的15.6%直接跃升至71.0%,已达到与OpenAI-o1-0912相当的水平。这一提升,生动证明了RL算法在优化模型性能方面的强大能力。

那么,RL究竟是如何让模型学会推理的?DeepSeek-R1-Zero的自我进化过程提供了一个直观的答案。直接从基座模型启动RL,可以清晰地观察到模型能力增长的轨迹——没有监督微调阶段的干扰。可以看到,模型的思考时间在整个训练过程中持续改进。这种改进并非外部参数调节的结果,而是模型内部自然涌现的特性。它通过延长测试时计算(生成数百到数千个推理token),逐步获得了处理复杂推理任务的能力。

在自我进化过程中,最引人注目的当属“反思”行为。模型会回头重新审视自己的推理步骤,并尝试其他解题路径。这些行为并非来自任何显式编程,而是模型在与RL环境互动中自发产生的。这种自发性,将DeepSeek-R1-Zero的推理能力推向了新的高度。

DeepSeek-R1-Zero的“顿悟时刻”(aha moment):训练中观察到一个特别有趣的现象——模型在遇到难题时,学会主动分配更多思考时间,重新评估初始方法。这不仅仅是推理能力的增长,更是一个生动的例证:强化学习能催生意料之外、但极具价值的复杂行为。

DeepSeek-R1的训练流程深度解析

DeepSeek-R1-Zero的可读性问题和语言混杂是明显的短板。DeepSeek-R1通过引入少量冷启动数据和多阶段训练,成功解决了这些难题,同时将推理性能再次提升。整个训练流程分为四个阶段:冷启动、面向推理的强化学习、拒绝采样与监督微调、面向全场景的强化学习。

冷启动阶段

与DeepSeek-R1-Zero不同,为了规避RL训练初期不稳定的冷启动阶段,DeepSeek-R1首先收集了数千条长思维链数据,用于微调模型,作为RL的起点。这一策略的好处显而易见:

  • 可读性提升:DeepSeek-R1-Zero的输出常常混乱无序——多语言混杂,缺乏Markdown格式。而冷启动数据设计为每条回复都附带总结,显著提升了可读性。
  • 性能潜力释放:基于人类经验精心设计的冷启动数据,初始性能就直接超越了DeepSeek-R1-Zero。这表明迭代训练策略是更优的路径。

面向推理的强化学习阶段

冷启动微调完成后,进入与DeepSeek-R1-Zero一致的RL训练阶段,专门提升模型在代码、数学、科学、逻辑推理等具有明确答案的任务上的能力。训练中,思维链里经常出现语言混杂(例如使用了多种语言),尤其是在RL提示涉及多种语言时。为限制这一问题,他们引入了语言一致性奖励——计算思维链中目标语言词汇的比例。尽管消融实验显示这种对齐会导致性能轻微下降,但换来了更符合人类偏好的输出。最终,将推理准确性和语言一致性奖励相加,作为总奖励,对微调后的模型进行强化学习,直至推理任务收敛。

拒绝采样与监督微调阶段

面向推理的RL收敛后,使用得到的检查点生成SFT数据,进行下一轮训练。这一阶段不再局限于推理,还加入了写作、角色扮演等通用任务的数据,以增强模型的综合能力。操作流程如下:

  • 推理数据:精心挑选推理提示,通过拒绝采样从RL检查点生成推理轨迹。之前仅收集基于规则奖励可评估的数据,此阶段拓展了范围,部分数据使用了生成式奖励模型(将真实答案和模型预测提交给DeepSeek-V3判断)。此外,过滤掉混合语言、长段落、混乱代码块的思维链。每个提示采样多个回复,仅保留正确答案。最终收集了约60万条推理样本。
  • 非推理数据:涵盖写作、事实问答、自我认知、翻译等,复用了DeepSeek-V3的SFT数据集。对于某些非推理任务,引导模型在回答前生成潜在思维链;但对于简单查询(如“你好”)则不强制CoT。总计约20万条。

使用这80万条样本对DeepSeek-V3-Base进行两轮微调。

面向全场景的强化学习阶段

最后,为让模型更符合人类偏好,又增加了一轮强化学习,目标是提升有用性无害性,同时保持推理能力。具体做法是结合奖励信号和多样化的提示分布进行训练。推理数据沿用DeepSeek-R1-Zero的基于规则奖励,针对数学、代码、逻辑推理;通用数据则使用奖励模型来捕捉复杂场景中的人类偏好。在有用性方面,重点考察生成内容的最终总结部分,确保回答实用且相关;在无害性方面,对整个响应(包括推理过程和总结)进行全面审查,识别并缓解偏见、风险。最终训练出的模型,既保持了顶尖的推理能力,又在有用性和无害性上令人信赖。

蒸馏技术:为小型模型注入推理能力

为了让更小、更高效的模型也能具备DeepSeek-R1级别的推理能力,他们直接将DeepSeek-R1精选的80万条样本用于微调开源模型(Qwen、Llama)。结果简单而有效:蒸馏显著增强了小型模型的推理能力。需要注意的是,蒸馏后的模型仅进行了SFT,未加入RL阶段(引入RL或许能进一步提升,但本次研究的重点是展示蒸馏的有效性)。

以Qwen2.5-32B为基础,直接从DeepSeek-R1蒸馏的效果,甚至超过了在其自身基础上运行RL的效果。这充分说明,大模型发现的推理模式本身,就是提升推理能力的关键资产。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:DeepSeek-R1核心技术架构与训练原理及实现机制详解要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/LargeLanguageModel/2025020980679.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-06-30 15:47
使用Dify集成Midjourney实现人工智能绘画助手完整指南

想要在 Dify 中搭建一个能够理解自然语言、并自动调用 Midjourney 生成图像的 AI 绘画助手,你首先需要认清一个现实:Midjourney 至今并未开放任何官方 API。所有的图像生成都依赖 Discord 平台上的 imagine 斜杠命令来触发。因此,绕不开的关键步骤是通过 Di

AI热点2026-06-30 15:47
百度文库AI监控告警提示词怎么做个性化推荐

监控告警提示词的定制化策略——面向SRE版本应聚焦技术指标与响应时效,面向业务版本则需直击客户体验受损情况。通过字段权重排序、剔除冗余信息、根据告警级别绑定动词强度,并嵌入真实时间戳、原始表达式片段及误报提醒,才能精准匹配不同角色的决策逻辑。 在实际运维场景中,监控告警提示词需要自动适配不同角色的接

AI热点2026-06-30 15:47
Figma AI撰写茶饮新品海报提示词减少同质化策略

那该怎么写?这篇文章会拆解一套经过反复验证的提示词框架,经验反复证明了这一点:真正的真实感,藏在“物理锚点”里。 用物理锚点替代风格描述 这一手得下在最前面。每写一条提示词,头部必须带上一串精确的“身份标识”。例如:【山止工坊×夏夜青提系列|2026年7月门店首发】。不加这个锚点信息,AI默认调用的

AI热点2026-06-30 15:47
通义千问AI学习打卡提示词如何融入用户视角

我们先说最关键的起点。这个起点要是错了,后面怎么折腾都是白费。 第一步:用“我”开头,锁定身份和场景 提示词的开头,直接就是“我是【具体身份】,正在【具体场景】学【具体技能 知识】”。举个例子:“我是刚转行的数据分析新人,每天下班后挤出1小时在咖啡馆用Jupyter练Python”。千万别用什么“用

延伸阅读