数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

DeepSeek 9篇论文解读精华：关键知识点总结（上）

AI热点日报时间：2026-07-01

热点解读

从年前到现在，关于DeepSeek的讨论几乎刷遍了所有科技媒体的版面，从最初的震惊海外到用户激增，再到所谓的“国运之争”，各种解读铺天盖地。但这些讨论里，真正来自DeepSeek内部的第一手信源其实少得可怜，除了去年7月那篇广为流传的《暗涌》采访稿之外，更多时候读者接触到的更像是“二手信息”。恰好在最近，看到了张小珺Jùn｜商业访谈录中一期由香港科技大学计算机系助理教授何俊贤主讲的3个多小时播客，题目叫《逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏”》。顺着这个思路，论文本身不就是最权威的一手信源吗？与其追着各种“传闻”跑，不如直接翻阅那些公开的技术报告——从2024年初到现在，这些论文里或许隐藏着不少媒体老师们和KOL们忽略的内容，也才能真正理解DeepSeek在过去这一年多的时间里，到底是如何一步步走到今天这个位置的。把播客认真听完后，借助工具整理出了一份文字版，分享出来供大家参考。

最好的致敬是学习。

回顾DeepSeek过去一年多发表的核心论文，基本可以把研究脉络梳理成两条主线：
1. **基座模型（Foundation Models）**：从最初的稠密（Dense）结构一路演进到混合专家（MoE）模式，过程中不断发明并采用新的高效训练算法。
2. **推理能力（Reasoning）**：核心关注点在于解数学题、代码生成、逻辑问答，乃至定理证明。这一系列工作更强调大模型的“思考深度”，并在如何实施强化学习方面进行了连续多次创新。在阅读这篇逐篇解读之前，可以先记住DeepSeek的几个显著特征：对实验和数据极度重视、有足够的冒险精神去尝试新架构和新算法，并且愿意向社区分享内部研究细节，提供可复现的技术报告。

第一篇 2024年1月《DeepSeek LLM：Scaling Open-Source Language Models with Longtermism》

简单聊一下这篇论文的定位。坦白说，DeepSeek的第一篇论文在创新性上并不突出，它的本质工作是对Llama 2的一个复现。当时Llama 2刚刚发布，DeepSeek作为一家初创公司，起步阶段先尝试复现Llama 2的性能，再在这个基础上逐步改进，逻辑上是很合理的。因此，论文的绝大多数内容其实都是沿着Llama 2的框架走。

当然，在数据层面有一些不同。DeepSeek做的是中英文双语模型，数据质量可能更高。但模型的整体架构和一些训练方法，与Llama 2完全一致。模型主要两个规模：一个小的7B和一个大的67B，对应地，Llama 2也有7B和70B版本。训练数据用了2T token（这个数量级与Llama系列一致），后续做了SFT、DPO等后训练。最终的实验结果超过了Llama 2 70B，这也是意料之中——毕竟Llama 2发布时间在前，后续工作只要把数据质量做得更好，超越它并不难，当时国内很多模型都声称超过了这个基线。所以，这篇论文的整体意义，在于对Llama 2的成功复现，以及DeepSeek在过程中展现出的比较严谨的科学态度。

这种严谨体现在几个方面。
首先，他们在学习率调度（learning rate schedule）上选用了multistep方式。大模型训练通常使用余弦退火（cosine schedule），让学习率沿着一个预先设计的曲线逐步衰减。但这样做有个隐性的代价：一上来就要确定好训练的总token数，以便规划整条曲线。如果在训练过程中数据量动态变化，比如中途想加入新数据，余弦曲线就很难灵活调整。因此，DeepSeek采用了multistep策略：开始时学习率恒定，训练到一定程度就降低，再保持新的常数值。虽然最终发现这种方式与余弦退火在性能上差别不大，但灵活性更高。

第二点，他们花了大量精力做Scaling Law的研究。Scaling Law的大致逻辑是，在固定训练资源（算力）的前提下，如何事先预测模型大小、数据量以及超参数的最优配置。大模型的实验代价极其昂贵，一种可外推的方法能大大减少反复试验。DeepSeek的论文对Scaling Law做了更严谨的推导和补充：对超参数（比如batch size、学习率）做了专门的缩放实验——这在很多前人的工作中并没有系统化地讨论过。对于业界来说，可能直接参考Llama 2的设置就够了，但DeepSeek把它当作一个学术课题来深挖，做了大量严谨的实验，颇有高校实验室的风格。他们还挑战了之前对算力估计过于粗糙的部分，比如将注意力（attention）带来的计算开销也算入估算中，提出了一个新的公式。虽然参数上只有细微差别，但在实际外推时，对最优配置的预测变得更精细了。这种做法对于大模型这样靠“炼丹”的艺术来说极具价值。

第三点，他们强调了数据质量对Scaling Law的影响。高质量的data会改变最优的模型和数据规模配置。虽然很多团队都知道数据质量重要，但很少有人精确地量化它如何影响最优配置，DeepSeek把这些因素都考虑进去，堪称严苛。

最后，让人印象最深的是，他们在论文中非常坦率地讨论了“刷榜”现象。2023年，中文评测榜单C-Eval上出现了大量的刷榜行为：因为C-Eval大多是选择题（四选一），如果在训练数据里特意针对这类多选题进行强化，分数可以瞬间暴涨，但模型的泛化能力并不一定提升。DeepSeek做了一个对照实验：原始模型只能得47分，但刻意针对多选题进行专门训练后，分数能直接飙到71分，差距悬殊。令人敬佩的是，他们把这个刷榜的过程原原本本地写进了论文——很多公司根本不会公开这种事，它们只会说“我分数比你高”，而对背后的训练方式讳莫如深。当时C-Eval的维护团队也做过很多相同排查，深知很多模型都是“高分低能”。而DeepSeek不仅正面揭示了这个现象，还强调自己的公开模型并没有刻意去刷榜。在当时的国内环境下，这种诚实的态度非常少见，也让人对这支团队刮目相看——他们更像是一个严谨的学术团队，追求对科学原理的理解，而不是单纯追求漂亮的榜单成绩。

总结来说，这篇DeepSeek LLM论文本身在模型创新上没有太多突破，但有几点非常值得称道：严谨地分析了Attention的额外计算开销、数据质量与最优配置的关系，并诚恳地展示了刷榜对评测分数的巨大影响。这种风格在当时的行业环境里称得上是“一股清流”。

第二篇 2024年1月《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》

第二篇论文开始，DeepSeek就走上了混合专家模型（MoE）的道路。它的第一个模型是稠密模型（Dense Model），因为LLaMA系列一直走的都是Dense路线。而MoE，通俗讲就是把Transformer里的神经网络切分成若干块，每一块都是一个“专家”。当数据输入进来做预测时，不一定需要经过所有专家——比如有专家擅长数学，有专家擅长物理，有专家擅长文学。进来的是一道数学题，那就只用数学专家帮忙，其他专家可以暂时“歇着”。这也是为什么MoE又被称为稀疏模型。相比之下，稠密模型就是任何输入都会让所有参数都一起发挥作用。这是一个比较直观的理解。

为什么要做MoE？其实DeepSeek不是第一个提出MoE的，早在ChatGPT出来之前，Google就有MoE模型。后来甚至有广泛传言说ChatGPT本身就是MoE模型，目的就是降低推理成本。所以DeepSeek选择这条路，也算是顺势而为。MoE之所以重要，是因为它提供了一个可以让你把模型做得非常大，同时又不让推理成本失控的方案。从DeepSeek MoE开始到V2、V3乃至R1，全部走的都是MoE。

这篇论文更像是一份对前期算法策略和实验结果的“研究报告”，而不是一个直接ready的产品。论文中主要做了2B规模的实验，最后放出了一个16B的MoE模型。创新点主要有两个：
第一，他们用了非常多的专家（experts）。业界通常的做法是8个或16个，但DeepSeek认为这个粒度太粗了，希望分成64甚至128个。这样做的好处是什么？以往8个或16个专家会出现一个问题：专家之间的区分不明显。因为专家太少，两个或三个专家不得不学习很多共享的内容，最后导致专家彼此之间难以真正的分工。但如果分成128个专家，每个专家的辨识度会大幅提升，各自学到不同的东西。这个思路在当时引发了不少讨论——MOE到底应不应该像DeepSeek这样采用大量专家？这是一个在当时看起来很有创新性的尝试。
第二，除了这些专门的专家，他们还设计了共享专家（shared experts）。毕竟除了每个专家专攻的领域，模型本身还有对一些基础语言理解和常识等的需求——这些是所有query都共通的。设计上既有专有专家又有共享专家，其实不算难想，但真正落实到大规模训练中确实很冒险。既然已经有前人验证过8个专家效果可行，为什么非要自己去折腾一个新架构？DeepSeek在后来的论文中还会有很多类似的大胆尝试。作为一个公司而言，这种做法在业界确实少见。

在他们的实验中，一共用了64个专家（后续V2和V3用的更多）。模型本身不大：2B和16B，其中激活参数只有2.8B，性能却与之前同级别的稠密模型基本持平。一句话概括：只用40%的计算量，DeepSeek MoE的模型效果就跟之前接近。40%意味着什么？将推理成本降低到原来的40%。这给了团队足够的信心，然后才有了后面的V2。

第三篇 2024年5月《DeepSeek-V2: A Strong, Economical, and Efficient MoE Language Model》

接着，V2的工作就是在真正大规模场景下继续验证DeepSeek MoE的路线。实验验证了在小范围内已经做得足够扎实，才敢于把规模推上去。V2的专家数增加到了160个（之前多数大模型还是8个或16个），但这不是一蹴而就的，而是基于之前那篇论文一步一个脚印走过来的。

V2是一个236B的MoE模型，规模很大。236B的总参数里，激活参数只有21B，支持128K的长上下文。相比DeepSeek 67B（就是第一篇里的那个），V2的生成吞吐量提升了5.76倍，参数量变大了近4倍，算力反而节约了40%，速度还快了5倍多。可以说，从V2开始，DeepSeek笔下对成本的控制理念贯穿始终。

这篇论文还有一个很重要的原创技术：多头潜在注意力（Multi-Head Latent Attention，MLA）。这个技术最近在国外也很受关注，因为它是DeepSeek自己提出来的，不是别人的。这里尝试简单解释一下。Transformer中的多头注意机制里，有很多个head，每个head都有自己的K和value。当用来做生成时，你问一个问题，它一个token一个token地往后生成，每个新生成的token都要跟之前的所有历史token做一次attention。如果历史内容有5000个token，那么新生成的5000个token里的每个词都要重新跟这5000个历史token做attention，这当然非常贵。为了不重复计算历史token的K和value（因为它们不依赖当前新生成的词），大家普遍采用一个技巧：把历史所有的K和value存下来，这叫KV cache。但这样就用空间换了时间——GPU显存占用巨大。为了减少KV cache，研究者们发明了group query attention（GQA）——让多个head共享一个K和value，以及更激进的multi-query attention (MQA) ——所有query共用一个K和value，数量降到1。代价就是KV cache越做越少，性能也会越差。DeepSeek的MLA希望既保留多头的高性能，又大幅减少KV cache：他们先把K和value压缩到一个低维的latent向量里，存储时只存这个低维向量，用到时再映射回高维。这就在保持推理精度的同时，把KV cache降低了93%。

除了MLA，DeepSeek V2还做了大量的负载平衡：不同专家之间、不同GPU之间甚至不同设备间的通信要保证平衡。这些听起来不算多么创新的算法突破，更多的是一种工程上的细腻处理，但正是这些努力让DeepSeek V3的成本控制能力表现突出。

相比之下，同期做的MoE模型如Mistral 8x22B依然只用了8个专家，且专家之间并没有真正实现很好的分工，而DeepSeek V2把专家数加到了160，激活参数反而更小，部署成本甚至低于Mistral。这样对比下来，可见DeepSeek团队在极低成本下追求高性能的决心和能力。

而且从V2开始，DeepSeek的模型在后训练上并没有做特别精细的RLHF，看起来更偏向完成一个research work。他们似乎也并不急于通过高算力刷榜或做产品宣发。不过，由于成本极低，V2开始在国内大模型API市场触发了价格战。从各种意义上来看，DeepSeek V2是一款里程碑式的作品：在基座模型上实现了236B参数160个专家的规模，通过MLA等原创技术极大提升了性能和效率，同时将扩张成本压缩到了一个极为惊人的水平。

第四篇 2024年12月《DeepSeek-V3 Technical Report》

最后一篇基座模型论文就是最近获封“现象级”的DeepSeek V3，2024年12月发布。这是一个671B（6710亿）参数的超大规模模型，也是后面R1的基础模型。规模比V2大了近三倍，但依然延续了V2的核心思路：MLA和MoE的专家策略。但这次让它名声大噪的核心原因有两个：惊人的训练成本和稳定的一次性训练。

先说成本：只用2048张H800完成了训练，总体投入约557万美元。相比之下，Llama 3.1（一个4000亿参数的模型）的训练成本大约是三千万美元，差了近六倍。对于国内外数千甚至上万张H100/H800的大模型团队来说，这个数字极其震撼。而从V3开始，国外的开发者和大模型团队才开始认真审视DeepSeek的MoE和MLA技术，回溯他们之前的工作。

V3相比V2的创新点，有几处值得留意：
1. **负载平衡的新方式**：以前的平衡是在训练中增加损失函数来实现的，但V3采用了“loss-free balancing”，通过一个常数来实时监控每个专家是否被过度使用，如果某个专家过于繁忙，就通过调整常数来压制它的选择频率。这是一种非常直觉化的启发式方法，不需要显式训练。
2. **多词元预测（MTP）**：这篇论文中引入了多词元预测loss，要求模型不只预测下一个token，还要同时预测之后的更多token。好处是训练信号更丰富，迫使模型学习如何推断更远的内容，有利于提升推理能力。虽然这个idea并非V3团队原创，但敢于在大规模训练中应用这类新方法，而且放弃V2已有的稳固成果去闯新的路子，体现了DeepSeek团队的创新文化。
3. **全FP8低精度训练**：DeepSeek大规模使用了FP8精度进行训练，不仅降低了成本，还提升了训练速度。这在行业中很少有人敢做。为了确保稳定，他们研究了哪些中间变量保留高精度、哪些可以用FP8，并成功证明了混合精度训练是可行的。
4. **稳定性与无回滚**：论文特别强调，“整个训练是一次性完成的（one-shot），没有经历任何损失峰值或需要回滚”。这背后是他们强大的工程优化和团队协作的成果。

后训练方面，V3的SFT数据只有150万条（1.5M），相比一些模型的上千万甚至两千万条数据，规模小得惊人。他们也采用了DeepSeek R1（当时还是内部版本）的一些蒸馏数据，注重可验证性强的任务（如数学、代码）采用了规则反馈机制，而不是代用奖励模型；开放式问答则使用奖励模型。这种务实而高效的后训练策略，使得V3在基座模型基础上实现了显著提升，但也让我感觉到团队并不刻意去跑排行榜、刷分，更多是在追求低成本和高效能。

总结而言，DeepSeek V3完美沿袭了MoE和高效率的技术路线，在MLA、MTP、全FP8训练等关键创新点上做得“既大胆又精细”。它的成功不仅为团队积累了极高的声誉，也将国内大模型的价格战狠狠推向了新的高度。而从DeepSeek MoE到V2再到V3，一脉相承的创新文化与冒险精神已经烙在了这家公司的基因里。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：DeepSeek 9篇论文解读精华：关键知识点总结（上）要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/LargeLanguageModel/2025030125769.html

ai 人工智能

上一篇：Snowflake CEO专访谈DeepSeek模型优势与ChatGPT产品力

下一篇：人工智能技术加速无声语言研究突破

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

DeepSeek 9篇论文解读精华：关键知识点总结（上）

第一篇 2024年1月 《DeepSeek LLM：Scaling Open-Source Language Models with Longtermism》

第二篇 2024年1月《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》

第三篇 2024年5月《DeepSeek-V2: A Strong, Economical, and Efficient MoE Language Model》

第四篇 2024年12月《DeepSeek-V3 Technical Report》

第一篇 2024年1月《DeepSeek LLM：Scaling Open-Source Language Models with Longtermism》