DeepSeek-R1四个训练阶段详解
最近DeepSeek-R1的论文引发了广泛关注,许多人好奇它强大的推理能力究竟是如何锻造出来的。经过仔细研读,我发现其训练流程远比表面看起来精巧,并非一次性的简单微调,而是像层层递进的升级之路,经历了四个紧密相连的阶段。
简单来说,这四步遵循的是“先规范,再强化,后扩展,终对齐”的路线,其中包含两个强化学习(RL)阶段和两个监督微调(SFT)阶段。今天我们就逐一拆解它的训练过程。

第一阶段:冷启动(Cold Start,SFT阶段)
痛点是什么?
直接让基础模型在强化学习的“野生环境”中探索,后果往往难以预料。最常见的问题有两个:一是输出完全失控,答非所问、中英文混杂频繁出现;二是模型根本不理解什么是“人类可读”的推理步骤,思考过程可能杂乱无章、难以理解。
数据从哪来?
既然是建立规则,教材就必须经过人工严格筛选。研发团队准备了数千条高质量的长链思维(CoT)数据。这些数据并非随意获取,而是经过了严格的格式规范和多语言对齐处理,确保模型从一开始就看到的是“标准示例”。
具体怎么做?
这个阶段的核心动作只有一个字:喂。
第一步,收集这些“标准答案”式的冷启动数据。来源包括人工撰写的范例、从上一代模型(DeepSeek-R1-Zero)输出中筛选出的优质结果,并统一用上述标签格式进行规范化。
第二步,**监督微调(SFT)**。即用这数千条高质量数据,对基础模型(DeepSeek-V3-Base)进行一次严格的“入职培训”,确保其输出格式规范、可读性强,为后续高强度训练提供稳定的出发点。
第二阶段:面向推理的强化学习(Reasoning-Oriented RL,RL阶段)
痛点是什么?
冷启动仅解决了“学会表达”的问题,离“能够攻坚”还有很大差距。这一阶段的目标十分明确:将模型的核心推理能力——如解题、编程、科研——推向极致。同时,必须根除第一阶段未完全解决的语言混杂问题,保证思考过程的语言纯净度。
输入模型:上一阶段训练好的检查点(Checkpoint)。
具体怎么做?
这一阶段的精髓在于GRPO算法。可以将它看作一位极其严厉的教练,它不直接给出标准答案,而是通过一套规则奖励机制来“引导”模型自行探索正确的推理路径。例如,答案正确加分,格式规范也加分。更巧妙的是,它引入了语言一致性奖励,比如检测思考过程中中文词汇的比例,鼓励模型维持语言纯净,将语言混杂的坏习惯扼杀在萌芽状态。最终的奖励信号由“解题正确”与“语言纯净”两者相加组成,模型的目标只有一个:争取高分。
第三阶段:拒绝采样与监督微调(Rejection Sampling & SFT,SFT阶段)
痛点是什么?
经过前一轮高强度的推理训练,模型的“理科”能力一骑绝尘,但“文科”能力(如写作、事实问答)可能相对滞后。这一阶段的目标是为它“补课”,扩展其在非推理任务上的通用能力。同时,推理数据虽然数量庞大,但质量参差不齐,需要一次严格的“质量筛选”。
数据从哪来?
数据分为两个来源:
- 推理数据:从第二阶段训练好的模型中,针对同一个问题生成多个回答。然后采用“拒绝采样”策略,仅保留解题思路正确、答案准确的优质推理轨迹。这部分共收集了约60万条。
- 非推理数据:直接复用之前DeepSeek-V3的SFT数据集,包含各类写作、翻译、事实问答任务,约20万条。
具体怎么做?
简单来说就是“混合微调”。将60万条优质推理数据与20万条通用非推理数据混合,共计80万条样本,用于对模型进行两轮监督微调。此操作旨在使模型在保持强大推理能力的同时,也能在写作、事实回答等方面表现出色,实现“文武双全”。
第四阶段:全场景强化学习(RL for All Scenarios,RL阶段)
痛点是什么?
能力已然足够,但仍需与人类的使用习惯和价值观“对齐”。换句话说,模型不仅要会解题,还必须确保其回答安全(Harmlessness)和有用(Helpfulness)。无论在开放问答还是长文本阅读理解场景,表现都必须稳定可靠。
输入模型:第三阶段SFT完成后的检查点。
具体怎么做?
这个阶段的RL训练变得更加“智能”。它不再使用单一的评分标准,而是采用多样化的奖励信号:
- 对于数学、代码等推理任务,继续沿用准确率、格式等规则奖励。
- 对于写作、问答等通用任务,则引入一个神经奖励模型来评估,该模型经过专门训练,能够分辨哪些回答更符合人类偏好,哪些回答存在潜在风险。
同时,训练数据覆盖了各种场景,从用户日常查询到角色扮演无所不包,帮助模型适应不同需求。这相当于最后一步的“全面体检与优化”,最终打磨出一个既聪明又懂规矩的DeepSeek-R1模型。
总结一下
整个训练流程的逻辑十分清晰,可以看作一条“规范-强化-扩展-对齐”的进化链条:
- SFT阶段1(冷启动):为模型确立规则,学会规范的思考方式。
- RL阶段1(推理优化):专攻核心推理,将能力推向极致。
- SFT阶段2(混合数据):引入通用数据,补齐“文科”短板。
- RL阶段2(全场景对齐):与人类偏好对齐,确保安全、有用。
这套方案的核心创新在于验证了一条新路径:**通过纯粹的强化学习就能激发强大的推理能力**。即使不依赖冷启动SFT(仅看DeepSeek-R1-Zero版本),模型也能自行摸索出方法。再结合冷启动与后续的迭代优化,最终达到了与OpenAI o1系列模型相匹敌的水平。这一方法论对整个AI行业如何训练出更强、更通用的模型,无疑提供了一个极具启发性的范本。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
什么是文本生成(Text Generation) 一文读懂概念与原理 AI百科知识
文本生成作为自然语言处理领域的前沿技术,正深刻改变着人类与信息交互的方式。它使机器从被动响应进化为主动创造——既能撰写财经快讯、构思故事,也能模拟流畅的对话场景。这不仅是效率的飞跃,更为个性化沟通和创意表达开辟了新路径。随着算法持续迭代与数据不断积累,文本生成的边界持续拓展,其潜力令人振奋。今天,我
Gigopost首页官方入口
```html Gigopost Home 到底是什么?一文带你了解 简单来说,Gigopost Home 是 Gigopost 公司推出的一款集 AI 内容创作与社交媒体管理于一体的智能工具。它能够借助人工智能自动生成内容、优化搜索引擎排名,并支持跨多个社交平台一键分发。尤其适合那些希望在内容营销
AI技术如何提升工作效率与客户服务体验
AI技术的应用与实践:从理论到落地的全流程指南 数字化浪潮席卷而来,人工智能早已不再是科幻电影里的遥远概念,而是切切实实地重塑着各行各业的运行逻辑与商业模式。无论是提升内部运营效率,还是优化客户服务体验,掌握并落地AI应用,已经成为个人与组织抓住新一轮增长机遇的核心能力。今天,我们就来聊聊几个能够立
AI自动对齐打开教程与人工智能提效攻略
在当今商业环境中,如何开启AI的自动对齐功能,并充分运用人工智能技术来提升自动化对齐的效率,已成为各行各业共同探讨的核心议题。这项功能在现代办公中的价值不言而喻——它能显著提升工作效率,尤其是在处理文档和演示文稿时,可省去大量繁琐的手动格式调整工作。试想一下,如果没有它,我们还需额外投入多少时间与精
2024年AI绘画软件哪个好 10款实用推荐与横向评测
数据科学、算法等核心技术的持续演进,正在重新定义内容创作的方方面面。从AI抠图、智能识别,到近年来备受关注的AI绘画与智能问答,技术已渗透到各个领域。 AI绘画,尤其为创作者开辟了一扇全新的创意之窗。它让艺术创作变得前所未有地便捷且充满乐趣,也使独特的视觉表达成为现实。正因如此,越来越多的创新者与艺
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

