数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

DeepSeek核心技术万字长文完整深度详解与原理剖析

AI热点日报时间：2026-06-30

热点解读

在今年的春节期间，DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现，DeepSeek 迅速成为了行业内外的焦点。不管你是技术专家还是普通用户，都可能被它的能力所震撼。本文从技术角度带你拆解 DeepSeek 系列模型的核心创新——无论你是不是

在今年的春节期间，DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现，DeepSeek 迅速成为了行业内外的焦点。不管你是技术专家还是普通用户，都可能被它的能力所震撼。本文从技术角度带你拆解 DeepSeek 系列模型的核心创新——无论你是不是技术同学，都能读明白。

1 DeepSeek 系列模型的技术创新
1.1 DeepSeek MoE 架构
1.2 群体相对策略优化（Group Relative Policy Optimization，GRPO）
1.3 多头隐式注意力（Multi-Head Latent Attention，MLA）
1.4 多令牌预测（Multi-Token Prediction，MTP）
1.5 混合精度框架
1.6 Deepseek V3 总结

2 DeepSeek R1-Zero 和 R1
2.1 GPT-4、GPT-4o、o1、R1 等概述
2.2 DeepSeek R1 和 R1 Zero 模型的突破
2.3 DeepSeek R1 和 R1 Zero 模型技术介绍

01 DeepSeek 系列模型的技术创新

表1汇总了DeepSeek在模型架构、训练策略和推理优化方面的关键技术及发布节点。

技术创新	模型版本	发布时间
Deepseek MoE 架构	DeepSeek-MOE：模型/Paper	45292
Group Relative Policy Optimization（GRPO）	DeepSeek-Math：模型/Paper	45383
Multi-Head Latent Attention（MLA）	DeepSeek-V2：模型/Paper	45444
Multi-Token Prediction（MTP）	DeepSeek-V3：模型/Paper	45627
AI Infra相关（FP8混合精度训练、DualPipe等）	DeepSeek-V3：模型/Paper	45627
通过强化学习提升推理能力，R1-Zero在AIME 2024等推理基准测试中达到OpenAI-o1-0912水平	DeepSeek-R1-Zero：模型/Paper	45658
冷启动-强化学习（推理场景）-SFT-强化学习（全场景）四阶段训练，R1模型达到OpenAI-o1-1217水平	DeepSeek-R1：模型/Paper	45658
将R1推理能力蒸馏到小稠密模型	DeepSeek-R1-Distill：模型/Paper	45658

1.1 DeepSeek MoE 架构

图1展示了DeepSeek在传统MoE模型架构上的两处核心改进。

图1展示了 DeepSeek 从传统 MoE 模型架构（a）的基础上，做的两部分改进（b）与（c）：

(a）传统 MoE 模块: MoE 模块包含N个前馈神经网络（FFN）专家，每个专家在处理特定类型的数据上具有独特的优势。MoE 模块通过路由机制，根据输入数据的特征动态选择最合适的K个专家进行处理，而不是激活所有专家。所有专家的参数总和构成了整个 MoE 模块的参数量，在前向计算过程中，由于只激活了部分专家，实际参与计算的参数量被称为激活参数量。例如，Mixtral 8*7B 模型包含8个专家，每次选择其中的2个专家进行计算，模型的总参数量为46.7B，而激活参数量为12.9B。
(b）细粒度专家划分: 不同于传统 MoE ，DeepSeek 把N个专家做更细粒度的划分，降低每一个专家的参数量，增大专家数量。如图(b)，将N个专家拆分为mN个，每一个专家的隐层维度变为原来的1/m，相应地激活mK个专家。如此 MoE 模块的参数量以及激活参数量均保持不变，同时还可以更加灵活地组合多个专家。
(c）共享专家分离: 把激活专家区分为共享专家（Shared Experts）和路由专家（Routed Experts）时，如图(c)所示，共享专家和路由专家在数据处理流程上有显著的区别。对于共享专家，输入数据无需经过路由模块的计算，所有数据都会直接通过共享专家进行处理。相反，对于路由专家，输入数据会先经过路由模块，该模块根据输入数据的特征选择最合适的专家进行计算。在这种架构中，路由模块通过计算输入数据与各个专家的匹配概率，选择概率最高的专家进行处理。最终，将路由专家和共享专家的计算结果相加，形成 MoE 模块的最终输出。通过这种方式，模型能够在处理不同输入数据时，既能捕捉到输入数据的共性，也能关注到输入数据的差异性。这种设计能够提高模型的泛化能力和适应性。

更进一步地，DeepSeek-V3 针对 MoE 中常见的负载不均衡问题，提出了一种新的负载均衡策略。在用于选择专家的 Gate 模块中引入了一个可学习的偏置项。在计算路由得分时，这个偏置项会被动态地加到每个路由专家的得分上。该方式的主要特点在于:

动态调整路由倾向: 通过学习偏置项，模型可以动态地调整对不同路由专家的偏好。如果某个专家的负载过重，其对应的偏置项可能会被学习为负值，从而降低其被选择的概率。反之，对于负载较轻的专家，其偏置项可能会被学习为正值，提高其被选择的概率。
无额外损耗: 该偏置项是直接通过模型的训练目标进行优化的，而不是通过一个独立的负载均衡损失函数。这意味着，模型在努力提高主要任务性能的同时，也会自然而然地学习到一种更均衡的路由策略，而不会因为额外的负载均衡损失而影响性能。

这些 MoE 架构上的创新，直接促进了 V3 模型的整体效果提升。

下表是部分开源 MoE 模型的对比情况：

表2. 部分开源模型 MoE 模块配置对比

模型	细粒度	专家分离	共享专家数	路由专家数	激活专家数
Mixtral 8*7B	否	否	0	8	2
Hunyuan-Large	否	是	1	16	1
Qwen1.5-MoE-A2.7B	是	是	4	60	4
DeepSeek-V3	是	是	1	256	8

表3. DeepSeek V3 架构核心参数

key	value
总参数量	671B
激活参数	37B（占比5.5%）
专家数量	1+256=257个
每token专家数	1+8=9个

1.2 群体相对策略优化（Group Relative Policy Optimization，GRPO）

大模型训练大体可以分为3种模式：预训练（Pretraining）、有监督精调（SFT）、基于人类反馈的强化学习（RLHF）。其中，SFT 让模型通过学习训练数据分布来提高在特定任务上的表现，而 RLHF 则使用人类反馈定义奖励函数，通过强化学习优化模型，使其生成符合人类喜好的回复。

主流的 RLHF 算法有 PPO、DPO 以及本节介绍的 GRPO。强化学习的基础理论综合性较强，想要深入阅读的朋友可以参考相关资料。

在介绍GRPO之前，有必要先了解PPO算法，因为GRPO可以看作PPO的计算效率优化版本——在保持效果的同时降低计算资源消耗。PPO 采用了 Actor-Critic 架构，可以形象地理解为：有一个演员（actor）在舞台上表演，而一个评论家（critic）在台下观看。演员的目标是通过不断调整表演行为来获得认可，而评论家则负责评估表演并提供建议。

在自然语言处理（NLP）生成模型的场景中，被训练的模型相当于演员，其表演即为生成的回复。PPO 使用了四个模型：

Policy 模型（又称 Actor）：输入一段上文，输出下一个token的概率分布。该模型需要训练，是我们最终得到的模型。
Value 模型（又称 Critic）：用于预估当前模型回复的总收益，不仅局限于当前token的质量，还需衡量当前token对后续生成的影响。该模型需要训练。
Reward 模型：事先用偏好数据训练，对Policy模型的预测进行打分，评估当前输出的即时收益。
Reference 模型：与 Policy 模型相同，但训练中不更新，用于维持模型表现，防止出现过大的偏差。

为了更直观地理解 Value 模型的总收益和 Reward 模型的即时收益，可以用“磨刀不误砍柴工”来举例。假设钝刀一分钟劈一根柴，磨锋利后一分钟劈两根。选择直接砍柴的当前收益高，但未来收益低。Value 模型会对“磨刀”行为更推崇，而 Reward 模型会给“直接砍柴”更高的分数。

PPO 在大模型的 RLHF 阶段成功应用，不断提升模型回复表现的上限。然而，PPO 在计算成本和训练稳定性方面仍有挑战。GRPO 算法对此进行了优化，核心目标是去除 Value 模型，减少训练计算资源。

图2展示了 GRPO 相对于 PPO 的改进。传统 PPO 使用 Value 模型估计回复的总收益（对未来各种可能性的平均分值），而 GRPO 则让大模型根据当前上文进行多次采样，生成多个预测结果 o_i，并用 Reward 模型分别评分得到 r_i，然后取这些评分的平均值来替代 Value 模型的预期总收益估计。这样，GRPO 在训练过程中减少了一个模型的前向和反向传播计算，降低了计算资源消耗。

下表对 SFT 及主流强化学习方法做了对比总结：

表4. SFT 与 RLHF 算法特点

算法	特点
监督微调（SFT）	在标注的SFT数据上对预训练模型进行微调。
直接偏好优化（DPO）	依赖 Bradley-Terry 模型等理论偏好模型，直接根据策略定义偏好损失，无需在训练过程中学习 Reward 模型。
近端策略优化（PPO）	采用 Actor-Critic 架构，需要 Policy、Value、Reward、Reference 四个模型。使用 Value 模型评估预期总收益。
群体相对策略优化（GRPO）	采用 Actor-Critic 架构，需要 Reward、Reference 模型，删掉 Value 模型。使用一组针对同一输入的多次采样结果来估计预期总收益。

1.3 多头隐式注意力（Multi-Head Latent Attention，MLA）

在标准 Transformer 模型中，多头注意力（MHA）机制通过并行计算多个注意力头来捕捉输入序列中的不同特征。每个注意力头都有自己的查询（Q）、键（K）和值（V）矩阵。推理时，大模型采用 token by token 递归生成方式，上文 token 的 KV 计算不会受后续 token 影响，可以缓存下来避免重复计算——这就是 KV cache。当生成第 t+1 个 token 时，可以利用事先算好的前 t 个 token 的 KV 值。同样，第 t+1 位置 token 的 KV 值也会被缓存。

目前大模型对注意力机制的改进，如 MQA（Multi-Query Attention）、GQA（Group Query Attention），都是为了减少 KV Cache。DeepSeek 提出的 MLA 出发点也是如此——减少 KV Cache 就能在更少设备上推理更长的 Context，或在相同 Context 长度下让推理 batch size 更大，从而实现更快的推理速度或更大吞吐量，最终降低推理成本。

图3展示了 MHA、MQA、GQA 与 MLA 的对比。MQA 与 GQA 通过共享 K、V 的注意力头来降低 KV Cache 的数据维度，而 MLA 的本质是对原本 MHA 的 KV Cache 做低秩分解，得到一个低维隐向量（Latent Vector）。推理时，MLA 只需缓存该隐向量，大大降低了需要缓存的数据量。

具体地，对于某一层某一个 token 的表征 h_t，MLA 通过降维映射矩阵 W^DKV 得到对 K、V 压缩后的隐向量：

c^{KV}_t = W^{DKV} h_t

在前向过程中，需要对此隐向量进行升维还原：

k^C_t = W^{UK} c^{KV}_t ; v^C_t = W^{UV} c^{KV}_t

其中 W^{UK} 与 W^{UV} 为升维映射矩阵，得到 h_t 对应的 K、V 向量 k^C_t、v^C_t。可以理解为，MLA 利用低秩分解，通过增加少量参数（降维和升维映射矩阵），引入低维隐向量作为 KV Cache，降低显存压力，从而降低推理成本。

此外，DeepSeek 还将 Query 也进行了低秩分解，能够在训练过程中降低显存占用，提高训练资源利用率。

上述方案还需要处理位置编码 RoPE。如果在隐向量 h_t 中包含 RoPE，经过升降维操作后会破坏位置信息。为了解决这个问题，MLA 提出了“解耦RoPE”的方法——不在隐向量中包含位置编码，而是专门为注意力头的 Query 和 Key 新增向量维度以添加 RoPE 的位置信息。

使用了 MLA 的 DeepSeek V2（总参数量236B，激活参数量21B），与 DeepSeek 67B 相比，模型效果显著提升，同时节省了42.5%的训练成本，减少了93.3%的 KV Cache，并将最大生成吞吐量提高了5.76倍。

1.4 多令牌预测（Multi-Token Prediction，MTP）

当前主流自回归大模型都是单 token 预测——根据当前上文预测下一个最可能的 token。MTP 的核心思想是让模型一次性预测多个 token，从而提升训练效率、生成质量和推理速度。

举个例子，如果上文是“今年春节的天气”，传统单 token 预测会逐 token 预测“真”“的”“好”“冷”“。”，而 MTP 会并行预测这几个 token。因此，模型不仅要学习预测下一个 token，还需同时具备预测下 n 个 token 的能力。

推理时的好处显而易见——一次性生成多个 tokens，减少自回归步数，达到推理加速。而训练过程中，MTP 的训练目标函数同时考虑多个 token 的估计准确性，被认为可以捕捉 token 间的依赖关系，从而提升模型效果。

这里简单介绍 DeepSeek V3 的 MTP 模块。与 Meta 的 MTP 模块相比，DeepSeek 采用了级联式结构，使用 k 个串行模块来预测 k 个 token，保留因果语言模型（Causal Language Model）的连接关系，有利于效果提升，如图4所示。

图中展示了模型用 D 个顺序模块预测 D 个 tokens。定义预测深度为 k 的含义为预测后续第 k 个 token。

首先，每个预测深度模块共享一个嵌入层。对于输入的第 i 个 token，在第 k 个预测深度处，模型将前一个深度的表示与第 i+k-1 的 embedding 拼接，作为新的输入表示。然后通过一个预测深度 k 专用的 Transformer 模块，生成当前预测深度的输出表示，用于下一个深度的计算，同时用共享的输出层获得 token 预测，与训练样本中第 i+k 个 token 计算损失。

DeepSeek V3 论文报告了使用 MTP 模块的效果。他们在推理时并不使用 MTP 模块，仅在训练中利用该模块约束模型优化。实验表明，使用 MTP 模块训练能提升模型回复质量，在 MMLU、GSM8K 等公开基准测试指标均有提升。

1.5 混合精度框架

DeepSeek-V3 使用了 FP8 训练。为了增强训练稳定性并控制效果损失，作者提出了一种精细的量化策略。为了进一步减少 MoE 训练中的内存和通信开销，他们在 FP8 中缓存和分发激活值，同时以 BF16 格式存储低精度优化器状态。实验中，FP8 训练模型与 BF16 基线相比，相对损失误差始终低于0.25%，在训练随机性范围内是可以接受的。

基于此，DeepSeek-V3 提出了一种 FP8 训练的混合精度框架。在这个框架中，大多数计算密集型操作在 FP8 中进行，而关键操作则保持原始数据格式，以平衡训练效率和数值稳定性。为了加速训练，核心计算内核（如 GEMM 操作）在 FP8 精度下实现，接受 FP8 张量输入，生成 BF16 或 FP32 格式输出。所有与线性操作相关的三个 GEMM（前向传播、激活反向传播和权重反向传播）都在 FP8 中执行，理论上将计算速度提高了一倍。此外，FP8 权重反向传播 GEMM 允许激活值以 FP8 格式存储，以便在反向传播中使用，从而显著减少内存消耗。

训练框架在以下组件中保持了原始精度（如 BF16 或 FP32）：Embedding 模块、输出头、MoE 门控模块、归一化算子和注意力算子等。这些高精度保留确保了 DeepSeek-V3 的稳定训练动态。为了进一步保证数值稳定性，作者将模型的主权重、权重梯度和优化器状态均存储在更高精度中。该混合精度框架示意图见图5。

图5. DeepSeek V3 混合精度框架（FP8 训练）示意图 @[Deepseek-v3]

除了混合精度框架之外，DeepSeek 在 AI Infra 方面做了许多工作，例如提出了 DualPipe 算法等，提升了模型训练效率。这方面的工作期待 Infra 团队有更细致的分享。

1.6 Deepseek V3 总结

DeepSeek-V3 是一个在2048个 NVIDIA H800 GPU 集群上训练的超大型 MoE 大语言模型。它延续了 DeepSeek MoE、DeepSeek V2 的一系列创新，进一步提出了 MTP，并优化了训练效率，在取得较好效果的同时提高了效率、节约了成本。

表5、表6展示了 DeepSeek V3 为人瞩目的训练成本及开源基准评测效果。

表5. DeepSeek V3 训练成本 @[Deepseek-v3]

Training Costs	Pre-Training	Context Extension	Post-Training	Total
in H800 GPU Hours	2664K	119K	5K	2788K
in USD	5.328	0.238	0.01	5.576

表6. DeepSeek V3 与其他 Chat 模型开源基准评测效果 @[Deepseek-v3]

02 DeepSeek R1-Zero 和 R1

2.1 GPT-4、GPT-4o、o1、R1 等概述

GPT-4 是 ChatGPT-3.5 的迭代升级，在效果和性能上显著提升；GPT-4o 增加了多模态功能；o1 专注于深度推理能力；R1 与 o1 类似，也是专注深度推理的模型。下表是不同模型的简单对比。

表7. DeepSeek 与 OpenAI 模型对比

模型	发布时间	特点	训练方法
GPT-4	2024.3	通用型语言模型，处理多种任务	SFT + RL
GPT-4o	2024.5	多模态能力，支持文本、图像、音频。快速响应。	SFT + RL
o1-preview / o1	2024.9 / 2024.12	深度推理，采用长思维链（Long CoT），分解复杂问题。	SFT + RL
R1-zero	2025.1	同上	RL为主
R1	2025.1	同上	SFT + RL
K1.5	2025.1	多模态思考模型，采用long CoT方法训练	SFT + RL
o3	2025.2	o1的改进版本	？

2.1.1 CoT 与 Long CoT

CoT（思维链）指的是在生成最终答案之前，模型先逐步推导出一系列中间步骤或子目标，模拟人类的推理过程。Long-CoT（长思考/慢思考）是 CoT 的扩展形式，让思考过程和输出答案解耦，通过更长的上下文和更复杂的推理路径（如问题复述、思考回顾、反思、知识回忆、公式化等）来增强推理能力。

DeepSeek 公开了 R1 的技术细节，例如所采用的对话模版，如图6所示。DeepSeek 对社区的贡献还在于，他们的 API 展示了模型的思考过程，让从业人员和使用者能全方位了解 Long-CoT 的特点与作用。图7展示了一个使用 DeepSeek 深度思考及联网搜索的示例——实实在在感受到模型的强大。

图6. DeepSeek-R1-Zero 对话模版 @[Deepseek-r1]

图7. DeepSeek 使用示例，开启了深度思考与联网搜索

2.1.2 R1 与 o1、o3 在效果、速度、价格方面的比较

R1 与 o1、o3 的区别除了训练方法，还体现在效果、速度和价格上。Artificial Analysis 给出了具体的评测结果。

在整体评分上，o3-mini 和 DeepSeek R1 评分相同，不相上下。

图8. 主流模型 Artificial Analysis 评测效果-模型回复质量评分 @artificialanalysis

o3-mini 模型应该更小，主打低延迟，在输出 token 推理速度上比 DeepSeek R1 快10倍，比 o1 快7倍。

图9. 主流模型 Artificial Analysis 评测效果-推理速度 @artificialanalysis

从整体价格上，o3-mini 的价格已经比 DeepSeek-R1 更低，比 o1 便宜了13倍以上。

图10. 主流模型 Artificial Analysis 评测效果-价格 @artificialanalysis

2.2 DeepSeek R1 和 R1 Zero 模型的突破

DeepSeek R1 和 R1 Zero 的突破主要体现在以下几个方面：

强大的推理能力：它们在多个推理基准测试中表现出色。值得注意的是，DeepSeek-R1-Zero 是第一个公开验证 LLM 推理能力可以完全通过强化学习（RL）来激励的研究，无需 SFT。这也表明强化学习能促进模型自我进化。这一里程碑式的成就，为以 RL 为中心的推理 AI 铺平了道路。

表8. DeepSeek-R1-Zero 与 OpenAI o1 模型在推理类开源基准测试中的效果对比 @[Deepseek-r1]
可解释性：采用 Long CoT 方法，能够清晰展示推理过程（o1只能展示部分），提高了模型的可解释性。给出的思考过程本身也非常有研究价值，有助于大模型领域的发展。
开源和低成本：DeepSeek R1 和 R1 Zero 是开源的，开发者和研究人员可以自由探索、修改和部署。API 定价也比 OpenAI o1 模型更低，约为其1/10。

2.3 DeepSeek R1 和 R1 Zero 模型技术介绍

DeepSeek R1 与 R1 Zero 的主要差异在于训练方法。R1 Zero 仅用强化学习就训练出了一个效果接近 OpenAI-o1-0912 的推理模型——通过设定基于规则的 Reward 模型（保证答案和格式的准确性），在强化学习过程中不断进化，出现了“Aha Moment”并取得了出色的效果。

R1 Zero 的表现令人惊叹，但其回复会出现可读性差或语言混杂的问题。因此，DeepSeek 基于 R1 Zero 的成果，设计了一个多阶段训练策略并添加了大量高质量 SFT 数据。在这样的“人工干预”下，训练出了效果更优的 DeepSeek R1。

R1 系列模型的训练流程如图11所示：

图11. DeepSeek-R1-Zero，DeepSeek-R1 与 DeepSeek-R1-Distill 模型训练流程框图 @SirrahChan

2.3.1 DeepSeek R1 Zero

R1-Zero 的特别之处在于：无需 SFT 训练，直接从预训练的 DeepSeek V3 Base 开始，通过强化学习训练而成。具体来说：

采用群体相对策略优化（GRPO），节省 RL 训练成本。
在 RL 训练中采用 Rule-based 奖励：a) Accuracy rewards：评估输出是否正确；b) Format rewards：强制模型将思考过程置于指定的标记之间。
设计训练模版，指导基模型遵守指令。

DeepSeek-R1-Zero 展示了自我进化能力。随着强化学习训练进程深入，模型的思考时间在增加，并自发出现了反思、重新评估先前步骤、探索替代方法等更复杂的行为。

图12展示了 DeepSeek-R1-Zero 在训练过程中的平均回复长度，说明随着训练进行，模型在解答推理类问题时花了更多时间去思考以提高准确率。

图12. DeepSeek-R1-Zero平均回复长度随训练迭代步数的关系曲线 @[Deepseek-r1]

在训练过程中间出现了 Aha Moment（顿悟时刻），代表 RL 有可能在人工系统中解锁新的智能水平，为更加自主和自适应的模型铺平道路。

图13. DeepSeek-R1-Zero “Aha Moment”示例 @[Deepseek-r1]

2.3.2 DeepSeek R1

尽管 DeepSeek-R1-Zero 展示了强大的推理能力，但它存在可读性差和语言混杂等问题。R1 旨在成为一个更易用的模型，因此不全依赖强化学习。训练过程分为四个阶段：

图14. DeepSeek-R1 训练流程

冷启动：为避免 RL 训练从基础模型开始时的早期不稳定，构建并收集少量长的 CoT 数据来微调 DeepSeek-V3-Base 作为 RL 起点。
推理导向的强化学习：在冷启动数据上微调后，应用与 DeepSeek-R1-Zero 相同的 RL 方法。本阶段侧重增强推理能力（编码、数学、科学、逻辑推理等）。为减轻语言混合问题，在 RL 中引入语言一致性奖励。
拒绝抽样和监督微调：当 RL 过程收敛时，利用训练出的临时模型生成 SFT 数据（600K 推理数据+200K 推理无关数据）。使用这800k样本对 DeepSeek-V3-Base 进行两个 epoch 微调。
全场景强化学习：基于微调模型，使用全场景 RL 数据提升有用性和无害性。推理数据沿用基于规则的奖励，一般数据采用基于模型的奖励来捕捉人类偏好。

通过这精细的多阶段训练，DeepSeek R1 最终达到了 OpenAI-o1-1217 的水平。

表9. DeepSeek-R1在开源基准测试中的效果 @[Deepseek-r1]

2.3.3 将 R1 推理能力蒸馏到小的稠密模型中

图15. 将R1推理能力蒸馏到其他模型

为了使小参数模型也具备类似推理能力，首先通过 DeepSeek-R1 推理得到 800k 个样本，然后对 6 个不同参数量的开源模型进行直接监督微调——也就是数据蒸馏。R1 论文表明，通过这种方法就能显著增强小模型的推理能力，也反映了 R1 模型的价值——它可以用来激发绝大多数模型的推理能力。

表10. DeepSeek-R1-Distill 模型在推理类开源基准测试中的效果 @[Deepseek-r1]

表10展示了基于 1.5B~70B 规模的开源模型，使用 DeepSeek-R1 数据蒸馏后的推理能力评测，指标都具有较强竞争力。这实在是一件很夸张的事——相当于告诉我们一个简单直接的模型效果优化手段：从 R1 模型构造数据，然后 SFT！

2.3.4 DeepSeek R1 的意义

DeepSeek-R1 在全球引发巨大轰动，不仅源于技术突破，更在于与 OpenAI 的对比。OpenAI 的 o1 模型虽强，但因以下原因难以大规模采用：拒绝开源；隐藏深度思考过程，成为“黑箱”；定价高昂。相比之下，DeepSeek-R1 揭开了 o1 的神秘面纱，开源了强推理模型背后的关键技术，促进了行业快速发展，也对 OpenAI 的闭源策略形成了有力冲击。

DeepSeek-R1 的成功，本质上是对 OpenAI 发展路径的一次碘伏性突破。它重现了 2023 年初 ChatGPT 带给世界的震撼，但更重要的是，它证明了在有限算力条件下，通过算法创新同样能够实现技术突破。这种突破具有双重意义：一方面打破了“算力至上”的神话，为 AI 发展开辟新路径；另一方面为中国 AI 产业提供了宝贵经验——在算力受限的情况下，通过技术创新依然可以实现弯道超车。

从技术演进的角度看，DeepSeek V3 和 R1 的成功为 AI 发展指明了新方向。在追求模型性能的同时，效率优化将成为未来竞争的关键，这一点在 V3 的一系列技术中体现得淋漓尽致。

展望未来，DeepSeek 有望在很大程度上促进大模型行业应用的发展——这些技术不仅能提升当前大模型业务的效果与效率，还能提供新的解决方案思路。同时，DeepSeek 也为大模型厂商树立了榜样：2024 年的一系列卓越工作展示了如何打造有价值的大模型。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：DeepSeek核心技术万字长文完整深度详解与原理剖析要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/LargeLanguageModel/2025021840852.html

ai 人工智能

上一篇：人工智能产业商业化布局加速渗透各行业

下一篇：未来三大AI交互技术趋势解读

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。