DeepSeek核心技术万字长文完整深度详解与原理剖析
在今年的春节期间,DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现,DeepSeek 迅速成为了行业内外的焦点。不管你是技术专家还是普通用户,都可能被它的能力所震撼。本文从技术角度带你拆解 DeepSeek 系列模型的核心创新——无论你是不是
在今年的春节期间,DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现,DeepSeek 迅速成为了行业内外的焦点。不管你是技术专家还是普通用户,都可能被它的能力所震撼。本文从技术角度带你拆解 DeepSeek 系列模型的核心创新——无论你是不是技术同学,都能读明白。
目录
1 DeepSeek 系列模型的技术创新
1.1 DeepSeek MoE 架构
1.2 群体相对策略优化(Group Relative Policy Optimization,GRPO)
1.3 多头隐式注意力(Multi-Head Latent Attention,MLA)
1.4 多令牌预测(Multi-Token Prediction,MTP)
1.5 混合精度框架
1.6 Deepseek V3 总结
2 DeepSeek R1-Zero 和 R1
2.1 GPT-4、GPT-4o、o1、R1 等概述
2.2 DeepSeek R1 和 R1 Zero 模型的突破
2.3 DeepSeek R1 和 R1 Zero 模型技术介绍
01 DeepSeek 系列模型的技术创新
表1汇总了DeepSeek在模型架构、训练策略和推理优化方面的关键技术及发布节点。
| 技术创新 | 模型版本 | 发布时间 |
| Deepseek MoE 架构 | DeepSeek-MOE:模型/Paper | 45292 |
| Group Relative Policy Optimization(GRPO) | DeepSeek-Math:模型/Paper | 45383 |
| Multi-Head Latent Attention(MLA) | DeepSeek-V2:模型/Paper | 45444 |
| Multi-Token Prediction(MTP) | DeepSeek-V3:模型/Paper | 45627 |
| AI Infra相关(FP8混合精度训练、DualPipe等) | DeepSeek-V3:模型/Paper | 45627 |
| 通过强化学习提升推理能力,R1-Zero在AIME 2024等推理基准测试中达到OpenAI-o1-0912水平 | DeepSeek-R1-Zero:模型/Paper | 45658 |
| 冷启动-强化学习(推理场景)-SFT-强化学习(全场景)四阶段训练,R1模型达到OpenAI-o1-1217水平 | DeepSeek-R1:模型/Paper | 45658 |
| 将R1推理能力蒸馏到小稠密模型 | DeepSeek-R1-Distill:模型/Paper | 45658 |
1.1 DeepSeek MoE 架构
图1展示了DeepSeek在传统MoE模型架构上的两处核心改进。
图1展示了 DeepSeek 从传统 MoE 模型架构(a)的基础上,做的两部分改进(b)与(c):
(a)传统 MoE 模块: MoE 模块包含N个前馈神经网络(FFN)专家,每个专家在处理特定类型的数据上具有独特的优势。MoE 模块通过路由机制,根据输入数据的特征动态选择最合适的K个专家进行处理,而不是激活所有专家。所有专家的参数总和构成了整个 MoE 模块的参数量,在前向计算过程中,由于只激活了部分专家,实际参与计算的参数量被称为激活参数量。例如,Mixtral 8*7B 模型包含8个专家,每次选择其中的2个专家进行计算,模型的总参数量为46.7B,而激活参数量为12.9B。
(b)细粒度专家划分: 不同于传统 MoE ,DeepSeek 把N个专家做更细粒度的划分,降低每一个专家的参数量,增大专家数量。如图(b),将N个专家拆分为mN个,每一个专家的隐层维度变为原来的1/m,相应地激活mK个专家。如此 MoE 模块的参数量以及激活参数量均保持不变,同时还可以更加灵活地组合多个专家。
(c)共享专家分离: 把激活专家区分为共享专家(Shared Experts)和路由专家(Routed Experts)时,如图(c)所示,共享专家和路由专家在数据处理流程上有显著的区别。对于共享专家,输入数据无需经过路由模块的计算,所有数据都会直接通过共享专家进行处理。相反,对于路由专家,输入数据会先经过路由模块,该模块根据输入数据的特征选择最合适的专家进行计算。在这种架构中,路由模块通过计算输入数据与各个专家的匹配概率,选择概率最高的专家进行处理。最终,将路由专家和共享专家的计算结果相加,形成 MoE 模块的最终输出。通过这种方式,模型能够在处理不同输入数据时,既能捕捉到输入数据的共性,也能关注到输入数据的差异性。这种设计能够提高模型的泛化能力和适应性。
更进一步地,DeepSeek-V3 针对 MoE 中常见的负载不均衡问题,提出了一种新的负载均衡策略。在用于选择专家的 Gate 模块中引入了一个可学习的偏置项。在计算路由得分时,这个偏置项会被动态地加到每个路由专家的得分上。该方式的主要特点在于:
动态调整路由倾向: 通过学习偏置项,模型可以动态地调整对不同路由专家的偏好。如果某个专家的负载过重,其对应的偏置项可能会被学习为负值,从而降低其被选择的概率。反之,对于负载较轻的专家,其偏置项可能会被学习为正值,提高其被选择的概率。
无额外损耗: 该偏置项是直接通过模型的训练目标进行优化的,而不是通过一个独立的负载均衡损失函数。这意味着,模型在努力提高主要任务性能的同时,也会自然而然地学习到一种更均衡的路由策略,而不会因为额外的负载均衡损失而影响性能。
这些 MoE 架构上的创新,直接促进了 V3 模型的整体效果提升。
下表是部分开源 MoE 模型的对比情况:
表2. 部分开源模型 MoE 模块配置对比
| 模型 | 细粒度 | 专家分离 | 共享专家数 | 路由专家数 | 激活专家数 |
| Mixtral 8*7B | 否 | 否 | 0 | 8 | 2 |
| Hunyuan-Large | 否 | 是 | 1 | 16 | 1 |
| Qwen1.5-MoE-A2.7B | 是 | 是 | 4 | 60 | 4 |
| DeepSeek-V3 | 是 | 是 | 1 | 256 | 8 |
表3. DeepSeek V3 架构核心参数
| key | value |
| 总参数量 | 671B |
| 激活参数 | 37B(占比5.5%) |
| 专家数量 | 1+256=257个 |
| 每token专家数 | 1+8=9个 |
1.2 群体相对策略优化(Group Relative Policy Optimization,GRPO)
大模型训练大体可以分为3种模式:预训练(Pretraining)、有监督精调(SFT)、基于人类反馈的强化学习(RLHF)。其中,SFT 让模型通过学习训练数据分布来提高在特定任务上的表现,而 RLHF 则使用人类反馈定义奖励函数,通过强化学习优化模型,使其生成符合人类喜好的回复。
主流的 RLHF 算法有 PPO、DPO 以及本节介绍的 GRPO。强化学习的基础理论综合性较强,想要深入阅读的朋友可以参考相关资料。
在介绍GRPO之前,有必要先了解PPO算法,因为GRPO可以看作PPO的计算效率优化版本——在保持效果的同时降低计算资源消耗。PPO 采用了 Actor-Critic 架构,可以形象地理解为:有一个演员(actor)在舞台上表演,而一个评论家(critic)在台下观看。演员的目标是通过不断调整表演行为来获得认可,而评论家则负责评估表演并提供建议。
在自然语言处理(NLP)生成模型的场景中,被训练的模型相当于演员,其表演即为生成的回复。PPO 使用了四个模型:
Policy 模型(又称 Actor):输入一段上文,输出下一个token的概率分布。该模型需要训练,是我们最终得到的模型。
Value 模型(又称 Critic):用于预估当前模型回复的总收益,不仅局限于当前token的质量,还需衡量当前token对后续生成的影响。该模型需要训练。
Reward 模型:事先用偏好数据训练,对Policy模型的预测进行打分,评估当前输出的即时收益。
Reference 模型:与 Policy 模型相同,但训练中不更新,用于维持模型表现,防止出现过大的偏差。
为了更直观地理解 Value 模型的总收益和 Reward 模型的即时收益,可以用“磨刀不误砍柴工”来举例。假设钝刀一分钟劈一根柴,磨锋利后一分钟劈两根。选择直接砍柴的当前收益高,但未来收益低。Value 模型会对“磨刀”行为更推崇,而 Reward 模型会给“直接砍柴”更高的分数。
PPO 在大模型的 RLHF 阶段成功应用,不断提升模型回复表现的上限。然而,PPO 在计算成本和训练稳定性方面仍有挑战。GRPO 算法对此进行了优化,核心目标是去除 Value 模型,减少训练计算资源。
图2展示了 GRPO 相对于 PPO 的改进。传统 PPO 使用 Value 模型估计回复的总收益(对未来各种可能性的平均分值),而 GRPO 则让大模型根据当前上文进行多次采样,生成多个预测结果 o_i,并用 Reward 模型分别评分得到 r_i,然后取这些评分的平均值来替代 Value 模型的预期总收益估计。这样,GRPO 在训练过程中减少了一个模型的前向和反向传播计算,降低了计算资源消耗。
下表对 SFT 及主流强化学习方法做了对比总结:
表4. SFT 与 RLHF 算法特点
| 算法 | 特点 |
| 监督微调(SFT) | 在标注的SFT数据上对预训练模型进行微调。 |
| 直接偏好优化(DPO) | 依赖 Bradley-Terry 模型等理论偏好模型,直接根据策略定义偏好损失,无需在训练过程中学习 Reward 模型。 |
| 近端策略优化(PPO) | 采用 Actor-Critic 架构,需要 Policy、Value、Reward、Reference 四个模型。使用 Value 模型评估预期总收益。 |
| 群体相对策略优化(GRPO) | 采用 Actor-Critic 架构,需要 Reward、Reference 模型,删掉 Value 模型。使用一组针对同一输入的多次采样结果来估计预期总收益。 |
1.3 多头隐式注意力(Multi-Head Latent Attention,MLA)
在标准 Transformer 模型中,多头注意力(MHA)机制通过并行计算多个注意力头来捕捉输入序列中的不同特征。每个注意力头都有自己的查询(Q)、键(K)和值(V)矩阵。推理时,大模型采用 token by token 递归生成方式,上文 token 的 KV 计算不会受后续 token 影响,可以缓存下来避免重复计算——这就是 KV cache。当生成第 t+1 个 token 时,可以利用事先算好的前 t 个 token 的 KV 值。同样,第 t+1 位置 token 的 KV 值也会被缓存。
目前大模型对注意力机制的改进,如 MQA(Multi-Query Attention)、GQA(Group Query Attention),都是为了减少 KV Cache。DeepSeek 提出的 MLA 出发点也是如此——减少 KV Cache 就能在更少设备上推理更长的 Context,或在相同 Context 长度下让推理 batch size 更大,从而实现更快的推理速度或更大吞吐量,最终降低推理成本。
图3展示了 MHA、MQA、GQA 与 MLA 的对比。MQA 与 GQA 通过共享 K、V 的注意力头来降低 KV Cache 的数据维度,而 MLA 的本质是对原本 MHA 的 KV Cache 做低秩分解,得到一个低维隐向量(Latent Vector)。推理时,MLA 只需缓存该隐向量,大大降低了需要缓存的数据量。
具体地,对于某一层某一个 token 的表征 h_t,MLA 通过降维映射矩阵 W^DKV 得到对 K、V 压缩后的隐向量:
c^{KV}_t = W^{DKV} h_t
在前向过程中,需要对此隐向量进行升维还原:
k^C_t = W^{UK} c^{KV}_t ; v^C_t = W^{UV} c^{KV}_t
其中 W^{UK} 与 W^{UV} 为升维映射矩阵,得到 h_t 对应的 K、V 向量 k^C_t、v^C_t。可以理解为,MLA 利用低秩分解,通过增加少量参数(降维和升维映射矩阵),引入低维隐向量作为 KV Cache,降低显存压力,从而降低推理成本。
此外,DeepSeek 还将 Query 也进行了低秩分解,能够在训练过程中降低显存占用,提高训练资源利用率。
上述方案还需要处理位置编码 RoPE。如果在隐向量 h_t 中包含 RoPE,经过升降维操作后会破坏位置信息。为了解决这个问题,MLA 提出了“解耦RoPE”的方法——不在隐向量中包含位置编码,而是专门为注意力头的 Query 和 Key 新增向量维度以添加 RoPE 的位置信息。
使用了 MLA 的 DeepSeek V2(总参数量236B,激活参数量21B),与 DeepSeek 67B 相比,模型效果显著提升,同时节省了42.5%的训练成本,减少了93.3%的 KV Cache,并将最大生成吞吐量提高了5.76倍。
1.4 多令牌预测(Multi-Token Prediction,MTP)
当前主流自回归大模型都是单 token 预测——根据当前上文预测下一个最可能的 token。MTP 的核心思想是让模型一次性预测多个 token,从而提升训练效率、生成质量和推理速度。
举个例子,如果上文是“今年春节的天气”,传统单 token 预测会逐 token 预测“真”“的”“好”“冷”“。”,而 MTP 会并行预测这几个 token。因此,模型不仅要学习预测下一个 token,还需同时具备预测下 n 个 token 的能力。
推理时的好处显而易见——一次性生成多个 tokens,减少自回归步数,达到推理加速。而训练过程中,MTP 的训练目标函数同时考虑多个 token 的估计准确性,被认为可以捕捉 token 间的依赖关系,从而提升模型效果。
这里简单介绍 DeepSeek V3 的 MTP 模块。与 Meta 的 MTP 模块相比,DeepSeek 采用了级联式结构,使用 k 个串行模块来预测 k 个 token,保留因果语言模型(Causal Language Model)的连接关系,有利于效果提升,如图4所示。
图中展示了模型用 D 个顺序模块预测 D 个 tokens。定义预测深度为 k 的含义为预测后续第 k 个 token。
首先,每个预测深度模块共享一个嵌入层。对于输入的第 i 个 token,在第 k 个预测深度处,模型将前一个深度的表示与第 i+k-1 的 embedding 拼接,作为新的输入表示。然后通过一个预测深度 k 专用的 Transformer 模块,生成当前预测深度的输出表示,用于下一个深度的计算,同时用共享的输出层获得 token 预测,与训练样本中第 i+k 个 token 计算损失。
DeepSeek V3 论文报告了使用 MTP 模块的效果。他们在推理时并不使用 MTP 模块,仅在训练中利用该模块约束模型优化。实验表明,使用 MTP 模块训练能提升模型回复质量,在 MMLU、GSM8K 等公开基准测试指标均有提升。
1.5 混合精度框架
DeepSeek-V3 使用了 FP8 训练。为了增强训练稳定性并控制效果损失,作者提出了一种精细的量化策略。为了进一步减少 MoE 训练中的内存和通信开销,他们在 FP8 中缓存和分发激活值,同时以 BF16 格式存储低精度优化器状态。实验中,FP8 训练模型与 BF16 基线相比,相对损失误差始终低于0.25%,在训练随机性范围内是可以接受的。
基于此,DeepSeek-V3 提出了一种 FP8 训练的混合精度框架。在这个框架中,大多数计算密集型操作在 FP8 中进行,而关键操作则保持原始数据格式,以平衡训练效率和数值稳定性。为了加速训练,核心计算内核(如 GEMM 操作)在 FP8 精度下实现,接受 FP8 张量输入,生成 BF16 或 FP32 格式输出。所有与线性操作相关的三个 GEMM(前向传播、激活反向传播和权重反向传播)都在 FP8 中执行,理论上将计算速度提高了一倍。此外,FP8 权重反向传播 GEMM 允许激活值以 FP8 格式存储,以便在反向传播中使用,从而显著减少内存消耗。
训练框架在以下组件中保持了原始精度(如 BF16 或 FP32):Embedding 模块、输出头、MoE 门控模块、归一化算子和注意力算子等。这些高精度保留确保了 DeepSeek-V3 的稳定训练动态。为了进一步保证数值稳定性,作者将模型的主权重、权重梯度和优化器状态均存储在更高精度中。该混合精度框架示意图见图5。
图5. DeepSeek V3 混合精度框架(FP8 训练)示意图 @[Deepseek-v3]
除了混合精度框架之外,DeepSeek 在 AI Infra 方面做了许多工作,例如提出了 DualPipe 算法等,提升了模型训练效率。这方面的工作期待 Infra 团队有更细致的分享。
1.6 Deepseek V3 总结
DeepSeek-V3 是一个在2048个 NVIDIA H800 GPU 集群上训练的超大型 MoE 大语言模型。它延续了 DeepSeek MoE、DeepSeek V2 的一系列创新,进一步提出了 MTP,并优化了训练效率,在取得较好效果的同时提高了效率、节约了成本。
表5、表6展示了 DeepSeek V3 为人瞩目的训练成本及开源基准评测效果。
表5. DeepSeek V3 训练成本 @[Deepseek-v3]
| Training Costs | Pre-Training | Context Extension | Post-Training | Total |
| in H800 GPU Hours | 2664K | 119K | 5K | 2788K |
| in USD | 5.328 | 0.238 | 0.01 | 5.576 |
表6. DeepSeek V3 与其他 Chat 模型开源基准评测效果 @[Deepseek-v3]
02 DeepSeek R1-Zero 和 R1
2.1 GPT-4、GPT-4o、o1、R1 等概述
GPT-4 是 ChatGPT-3.5 的迭代升级,在效果和性能上显著提升;GPT-4o 增加了多模态功能;o1 专注于深度推理能力;R1 与 o1 类似,也是专注深度推理的模型。下表是不同模型的简单对比。
表7. DeepSeek 与 OpenAI 模型对比
| 模型 | 发布时间 | 特点 | 训练方法 |
| GPT-4 | 2024.3 | 通用型语言模型,处理多种任务 | SFT + RL |
| GPT-4o | 2024.5 | 多模态能力,支持文本、图像、音频。快速响应。 | SFT + RL |
| o1-preview / o1 | 2024.9 / 2024.12 | 深度推理,采用长思维链(Long CoT),分解复杂问题。 | SFT + RL |
| R1-zero | 2025.1 | 同上 | RL为主 |
| R1 | 2025.1 | 同上 | SFT + RL |
| K1.5 | 2025.1 | 多模态思考模型,采用long CoT方法训练 | SFT + RL |
| o3 | 2025.2 | o1的改进版本 | ? |
2.1.1 CoT 与 Long CoT
CoT(思维链)指的是在生成最终答案之前,模型先逐步推导出一系列中间步骤或子目标,模拟人类的推理过程。Long-CoT(长思考/慢思考)是 CoT 的扩展形式,让思考过程和输出答案解耦,通过更长的上下文和更复杂的推理路径(如问题复述、思考回顾、反思、知识回忆、公式化等)来增强推理能力。
DeepSeek 公开了 R1 的技术细节,例如所采用的对话模版,如图6所示。DeepSeek 对社区的贡献还在于,他们的 API 展示了模型的思考过程,让从业人员和使用者能全方位了解 Long-CoT 的特点与作用。图7展示了一个使用 DeepSeek 深度思考及联网搜索的示例——实实在在感受到模型的强大。
图6. DeepSeek-R1-Zero 对话模版 @[Deepseek-r1]
图7. DeepSeek 使用示例,开启了深度思考与联网搜索
2.1.2 R1 与 o1、o3 在效果、速度、价格方面的比较
R1 与 o1、o3 的区别除了训练方法,还体现在效果、速度和价格上。Artificial Analysis 给出了具体的评测结果。
在整体评分上,o3-mini 和 DeepSeek R1 评分相同,不相上下。
图8. 主流模型 Artificial Analysis 评测效果-模型回复质量评分 @artificialanalysis
o3-mini 模型应该更小,主打低延迟,在输出 token 推理速度上比 DeepSeek R1 快10倍,比 o1 快7倍。
图9. 主流模型 Artificial Analysis 评测效果-推理速度 @artificialanalysis
从整体价格上,o3-mini 的价格已经比 DeepSeek-R1 更低,比 o1 便宜了13倍以上。
图10. 主流模型 Artificial Analysis 评测效果-价格 @artificialanalysis
2.2 DeepSeek R1 和 R1 Zero 模型的突破
DeepSeek R1 和 R1 Zero 的突破主要体现在以下几个方面:
强大的推理能力:它们在多个推理基准测试中表现出色。值得注意的是,DeepSeek-R1-Zero 是第一个公开验证 LLM 推理能力可以完全通过强化学习(RL)来激励的研究,无需 SFT。这也表明强化学习能促进模型自我进化。这一里程碑式的成就,为以 RL 为中心的推理 AI 铺平了道路。
表8. DeepSeek-R1-Zero 与 OpenAI o1 模型在推理类开源基准测试中的效果对比 @[Deepseek-r1]
可解释性:采用 Long CoT 方法,能够清晰展示推理过程(o1只能展示部分),提高了模型的可解释性。给出的思考过程本身也非常有研究价值,有助于大模型领域的发展。
开源和低成本:DeepSeek R1 和 R1 Zero 是开源的,开发者和研究人员可以自由探索、修改和部署。API 定价也比 OpenAI o1 模型更低,约为其1/10。
2.3 DeepSeek R1 和 R1 Zero 模型技术介绍
DeepSeek R1 与 R1 Zero 的主要差异在于训练方法。R1 Zero 仅用强化学习就训练出了一个效果接近 OpenAI-o1-0912 的推理模型——通过设定基于规则的 Reward 模型(保证答案和格式的准确性),在强化学习过程中不断进化,出现了“Aha Moment”并取得了出色的效果。
R1 Zero 的表现令人惊叹,但其回复会出现可读性差或语言混杂的问题。因此,DeepSeek 基于 R1 Zero 的成果,设计了一个多阶段训练策略并添加了大量高质量 SFT 数据。在这样的“人工干预”下,训练出了效果更优的 DeepSeek R1。
R1 系列模型的训练流程如图11所示:
图11. DeepSeek-R1-Zero,DeepSeek-R1 与 DeepSeek-R1-Distill 模型训练流程框图 @SirrahChan
2.3.1 DeepSeek R1 Zero
R1-Zero 的特别之处在于:无需 SFT 训练,直接从预训练的 DeepSeek V3 Base 开始,通过强化学习训练而成。具体来说:
- 采用群体相对策略优化(GRPO),节省 RL 训练成本。
- 在 RL 训练中采用 Rule-based 奖励:a) Accuracy rewards:评估输出是否正确;b) Format rewards:强制模型将思考过程置于指定的标记之间。
- 设计训练模版,指导基模型遵守指令。
DeepSeek-R1-Zero 展示了自我进化能力。随着强化学习训练进程深入,模型的思考时间在增加,并自发出现了反思、重新评估先前步骤、探索替代方法等更复杂的行为。
图12展示了 DeepSeek-R1-Zero 在训练过程中的平均回复长度,说明随着训练进行,模型在解答推理类问题时花了更多时间去思考以提高准确率。
图12. DeepSeek-R1-Zero平均回复长度随训练迭代步数的关系曲线 @[Deepseek-r1]
在训练过程中间出现了 Aha Moment(顿悟时刻),代表 RL 有可能在人工系统中解锁新的智能水平,为更加自主和自适应的模型铺平道路。
图13. DeepSeek-R1-Zero “Aha Moment”示例 @[Deepseek-r1]
2.3.2 DeepSeek R1
尽管 DeepSeek-R1-Zero 展示了强大的推理能力,但它存在可读性差和语言混杂等问题。R1 旨在成为一个更易用的模型,因此不全依赖强化学习。训练过程分为四个阶段:
图14. DeepSeek-R1 训练流程
冷启动:为避免 RL 训练从基础模型开始时的早期不稳定,构建并收集少量长的 CoT 数据来微调 DeepSeek-V3-Base 作为 RL 起点。
推理导向的强化学习:在冷启动数据上微调后,应用与 DeepSeek-R1-Zero 相同的 RL 方法。本阶段侧重增强推理能力(编码、数学、科学、逻辑推理等)。为减轻语言混合问题,在 RL 中引入语言一致性奖励。
拒绝抽样和监督微调:当 RL 过程收敛时,利用训练出的临时模型生成 SFT 数据(600K 推理数据+200K 推理无关数据)。使用这800k样本对 DeepSeek-V3-Base 进行两个 epoch 微调。
全场景强化学习:基于微调模型,使用全场景 RL 数据提升有用性和无害性。推理数据沿用基于规则的奖励,一般数据采用基于模型的奖励来捕捉人类偏好。
通过这精细的多阶段训练,DeepSeek R1 最终达到了 OpenAI-o1-1217 的水平。
表9. DeepSeek-R1在开源基准测试中的效果 @[Deepseek-r1]
2.3.3 将 R1 推理能力蒸馏到小的稠密模型中
图15. 将R1推理能力蒸馏到其他模型
为了使小参数模型也具备类似推理能力,首先通过 DeepSeek-R1 推理得到 800k 个样本,然后对 6 个不同参数量的开源模型进行直接监督微调——也就是数据蒸馏。R1 论文表明,通过这种方法就能显著增强小模型的推理能力,也反映了 R1 模型的价值——它可以用来激发绝大多数模型的推理能力。
表10. DeepSeek-R1-Distill 模型在推理类开源基准测试中的效果 @[Deepseek-r1]
表10展示了基于 1.5B~70B 规模的开源模型,使用 DeepSeek-R1 数据蒸馏后的推理能力评测,指标都具有较强竞争力。这实在是一件很夸张的事——相当于告诉我们一个简单直接的模型效果优化手段:从 R1 模型构造数据,然后 SFT!
2.3.4 DeepSeek R1 的意义
DeepSeek-R1 在全球引发巨大轰动,不仅源于技术突破,更在于与 OpenAI 的对比。OpenAI 的 o1 模型虽强,但因以下原因难以大规模采用:拒绝开源;隐藏深度思考过程,成为“黑箱”;定价高昂。相比之下,DeepSeek-R1 揭开了 o1 的神秘面纱,开源了强推理模型背后的关键技术,促进了行业快速发展,也对 OpenAI 的闭源策略形成了有力冲击。
DeepSeek-R1 的成功,本质上是对 OpenAI 发展路径的一次碘伏性突破。它重现了 2023 年初 ChatGPT 带给世界的震撼,但更重要的是,它证明了在有限算力条件下,通过算法创新同样能够实现技术突破。这种突破具有双重意义:一方面打破了“算力至上”的神话,为 AI 发展开辟新路径;另一方面为中国 AI 产业提供了宝贵经验——在算力受限的情况下,通过技术创新依然可以实现弯道超车。
从技术演进的角度看,DeepSeek V3 和 R1 的成功为 AI 发展指明了新方向。在追求模型性能的同时,效率优化将成为未来竞争的关键,这一点在 V3 的一系列技术中体现得淋漓尽致。
展望未来,DeepSeek 有望在很大程度上促进大模型行业应用的发展——这些技术不仅能提升当前大模型业务的效果与效率,还能提供新的解决方案思路。同时,DeepSeek 也为大模型厂商树立了榜样:2024 年的一系列卓越工作展示了如何打造有价值的大模型。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:DeepSeek核心技术万字长文完整深度详解与原理剖析要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点两家生物科技企业近日宣布建立全面战略合作,联合创立一家面向全球市场的AI管线研发公司。合作中,一方提供全人源抗体平台及临床开发优势,另一方则贡献底层AI技术与智能化研发能力。新公司的首批管线整合了既往合作项目与新立项的AI原生项目,双方将按行业惯例共享潜在的首付款、里程碑付款及权益分成,共同推进AI
超频三近日发布FCARGB系列机箱风扇,新品以“星空幻境”光效为设计核心,在无限镜灯效基础上加入碎星点缀,并配备金属CD纹铭牌提升质感。产品提供120mm正 反叶、黑 白配色,并可选择单体或240 360连体框版本,安装灵活。性能方面采用9叶低噪扇叶与HDB轴承,风量达61CFM,静压2 11
我国在新型电磁调控技术领域取得关键突破,成功研制出超表面电磁调控核心技术功能样品。该技术可显著提升通信覆盖性能并大幅降低部署成本,其覆盖性能提升40%以上,单场景设备投入成本可降低50万元。尤为重要的是,通过底层技术革新,该技术将高端卫星通信及毫米波通信终端的量产成本从万元级降至千元级,打破了高端通
根据乘联会最新数据,2026年5月末全国乘用车行业库存为348万辆,环比下降6万辆,但同比增加3万辆。库存结构中厂家库存占比30 3%相对偏高。同期,行业市场乐观度与满意度指标均处于低位,高油价等因素影响显著。新能源车企业库存环比增加至79万辆,经销商面临零售低于预期的压力。团队对6月市场乐观度预判
- 日榜
- 周榜
- 月榜
热点快看
