面包屑图标 当前位置: 首页
AI资讯
热点详情

DeepSeek 9篇论文解读精华:关键知识点总结(上)

AI热点日报
AI热点日报时间:2026-07-01
热点解读

从年前到现在,关于DeepSeek的讨论几乎刷遍了所有科技媒体的版面,从最初的震惊海外到用户激增,再到所谓的“国运之争”,各种解读铺天盖地。但这些讨论里,真正来自DeepSeek内部的第一手信源其实少得可怜,除了去年7月那篇广为流传的《暗涌》采访稿之外,更多时候读者接触到的更像是“二手信息”。恰好在

从年前到现在,关于DeepSeek的讨论几乎刷遍了所有科技媒体的版面,从最初的震惊海外到用户激增,再到所谓的“国运之争”,各种解读铺天盖地。但这些讨论里,真正来自DeepSeek内部的第一手信源其实少得可怜,除了去年7月那篇广为流传的《暗涌》采访稿之外,更多时候读者接触到的更像是“二手信息”。恰好在最近,看到了张小珺Jùn|商业访谈录中一期由香港科技大学计算机系助理教授何俊贤主讲的3个多小时播客,题目叫《逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏”》。顺着这个思路,论文本身不就是最权威的一手信源吗?与其追着各种“传闻”跑,不如直接翻阅那些公开的技术报告——从2024年初到现在,这些论文里或许隐藏着不少媒体老师们和KOL们忽略的内容,也才能真正理解DeepSeek在过去这一年多的时间里,到底是如何一步步走到今天这个位置的。把播客认真听完后,借助工具整理出了一份文字版,分享出来供大家参考。

最好的致敬是学习。​

回顾DeepSeek过去一年多发表的核心论文,基本可以把研究脉络梳理成两条主线:
1. **基座模型(Foundation Models)**:从最初的稠密(Dense)结构一路演进到混合专家(MoE)模式,过程中不断发明并采用新的高效训练算法。
2. **推理能力(Reasoning)**:核心关注点在于解数学题、代码生成、逻辑问答,乃至定理证明。这一系列工作更强调大模型的“思考深度”,并在如何实施强化学习方面进行了连续多次创新。 在阅读这篇逐篇解读之前,可以先记住DeepSeek的几个显著特征:对实验和数据极度重视、有足够的冒险精神去尝试新架构和新算法,并且愿意向社区分享内部研究细节,提供可复现的技术报告。

第一篇 2024年1月 《DeepSeek LLM:Scaling Open-Source Language Models with Longtermism》

简单聊一下这篇论文的定位。坦白说,DeepSeek的第一篇论文在创新性上并不突出,它的本质工作是对Llama 2的一个复现。当时Llama 2刚刚发布,DeepSeek作为一家初创公司,起步阶段先尝试复现Llama 2的性能,再在这个基础上逐步改进,逻辑上是很合理的。因此,论文的绝大多数内容其实都是沿着Llama 2的框架走。

当然,在数据层面有一些不同。DeepSeek做的是中英文双语模型,数据质量可能更高。但模型的整体架构和一些训练方法,与Llama 2完全一致。模型主要两个规模:一个小的7B和一个大的67B,对应地,Llama 2也有7B和70B版本。训练数据用了2T token(这个数量级与Llama系列一致),后续做了SFT、DPO等后训练。最终的实验结果超过了Llama 2 70B,这也是意料之中——毕竟Llama 2发布时间在前,后续工作只要把数据质量做得更好,超越它并不难,当时国内很多模型都声称超过了这个基线。所以,这篇论文的整体意义,在于对Llama 2的成功复现,以及DeepSeek在过程中展现出的比较严谨的科学态度。

这种严谨体现在几个方面。
首先,他们在学习率调度(learning rate schedule)上选用了multistep方式。大模型训练通常使用余弦退火(cosine schedule),让学习率沿着一个预先设计的曲线逐步衰减。但这样做有个隐性的代价:一上来就要确定好训练的总token数,以便规划整条曲线。如果在训练过程中数据量动态变化,比如中途想加入新数据,余弦曲线就很难灵活调整。因此,DeepSeek采用了multistep策略:开始时学习率恒定,训练到一定程度就降低,再保持新的常数值。虽然最终发现这种方式与余弦退火在性能上差别不大,但灵活性更高。

第二点,他们花了大量精力做Scaling Law的研究。Scaling Law的大致逻辑是,在固定训练资源(算力)的前提下,如何事先预测模型大小、数据量以及超参数的最优配置。大模型的实验代价极其昂贵,一种可外推的方法能大大减少反复试验。DeepSeek的论文对Scaling Law做了更严谨的推导和补充:对超参数(比如batch size、学习率)做了专门的缩放实验——这在很多前人的工作中并没有系统化地讨论过。对于业界来说,可能直接参考Llama 2的设置就够了,但DeepSeek把它当作一个学术课题来深挖,做了大量严谨的实验,颇有高校实验室的风格。他们还挑战了之前对算力估计过于粗糙的部分,比如将注意力(attention)带来的计算开销也算入估算中,提出了一个新的公式。虽然参数上只有细微差别,但在实际外推时,对最优配置的预测变得更精细了。这种做法对于大模型这样靠“炼丹”的艺术来说极具价值。

第三点,他们强调了数据质量对Scaling Law的影响。高质量的data会改变最优的模型和数据规模配置。虽然很多团队都知道数据质量重要,但很少有人精确地量化它如何影响最优配置,DeepSeek把这些因素都考虑进去,堪称严苛。

最后,让人印象最深的是,他们在论文中非常坦率地讨论了“刷榜”现象。2023年,中文评测榜单C-Eval上出现了大量的刷榜行为:因为C-Eval大多是选择题(四选一),如果在训练数据里特意针对这类多选题进行强化,分数可以瞬间暴涨,但模型的泛化能力并不一定提升。DeepSeek做了一个对照实验:原始模型只能得47分,但刻意针对多选题进行专门训练后,分数能直接飙到71分,差距悬殊。令人敬佩的是,他们把这个刷榜的过程原原本本地写进了论文——很多公司根本不会公开这种事,它们只会说“我分数比你高”,而对背后的训练方式讳莫如深。当时C-Eval的维护团队也做过很多相同排查,深知很多模型都是“高分低能”。而DeepSeek不仅正面揭示了这个现象,还强调自己的公开模型并没有刻意去刷榜。在当时的国内环境下,这种诚实的态度非常少见,也让人对这支团队刮目相看——他们更像是一个严谨的学术团队,追求对科学原理的理解,而不是单纯追求漂亮的榜单成绩。

总结来说,这篇DeepSeek LLM论文本身在模型创新上没有太多突破,但有几点非常值得称道:严谨地分析了Attention的额外计算开销、数据质量与最优配置的关系,并诚恳地展示了刷榜对评测分数的巨大影响。这种风格在当时的行业环境里称得上是“一股清流”。

第二篇 2024年1月《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》

第二篇论文开始,DeepSeek就走上了混合专家模型(MoE)的道路。它的第一个模型是稠密模型(Dense Model),因为LLaMA系列一直走的都是Dense路线。而MoE,通俗讲就是把Transformer里的神经网络切分成若干块,每一块都是一个“专家”。当数据输入进来做预测时,不一定需要经过所有专家——比如有专家擅长数学,有专家擅长物理,有专家擅长文学。进来的是一道数学题,那就只用数学专家帮忙,其他专家可以暂时“歇着”。这也是为什么MoE又被称为稀疏模型。相比之下,稠密模型就是任何输入都会让所有参数都一起发挥作用。这是一个比较直观的理解。

为什么要做MoE?其实DeepSeek不是第一个提出MoE的,早在ChatGPT出来之前,Google就有MoE模型。后来甚至有广泛传言说ChatGPT本身就是MoE模型,目的就是降低推理成本。所以DeepSeek选择这条路,也算是顺势而为。MoE之所以重要,是因为它提供了一个可以让你把模型做得非常大,同时又不让推理成本失控的方案。从DeepSeek MoE开始到V2、V3乃至R1,全部走的都是MoE。

这篇论文更像是一份对前期算法策略和实验结果的“研究报告”,而不是一个直接ready的产品。论文中主要做了2B规模的实验,最后放出了一个16B的MoE模型。创新点主要有两个:
第一,他们用了非常多的专家(experts)。业界通常的做法是8个或16个,但DeepSeek认为这个粒度太粗了,希望分成64甚至128个。这样做的好处是什么?以往8个或16个专家会出现一个问题:专家之间的区分不明显。因为专家太少,两个或三个专家不得不学习很多共享的内容,最后导致专家彼此之间难以真正的分工。但如果分成128个专家,每个专家的辨识度会大幅提升,各自学到不同的东西。这个思路在当时引发了不少讨论——MOE到底应不应该像DeepSeek这样采用大量专家?这是一个在当时看起来很有创新性的尝试。
第二,除了这些专门的专家,他们还设计了共享专家(shared experts)。毕竟除了每个专家专攻的领域,模型本身还有对一些基础语言理解和常识等的需求——这些是所有query都共通的。设计上既有专有专家又有共享专家,其实不算难想,但真正落实到大规模训练中确实很冒险。既然已经有前人验证过8个专家效果可行,为什么非要自己去折腾一个新架构?DeepSeek在后来的论文中还会有很多类似的大胆尝试。作为一个公司而言,这种做法在业界确实少见。

在他们的实验中,一共用了64个专家(后续V2和V3用的更多)。模型本身不大:2B和16B,其中激活参数只有2.8B,性能却与之前同级别的稠密模型基本持平。一句话概括:只用40%的计算量,DeepSeek MoE的模型效果就跟之前接近。40%意味着什么?将推理成本降低到原来的40%。这给了团队足够的信心,然后才有了后面的V2。

第三篇 2024年5月《DeepSeek-V2: A Strong, Economical, and Efficient MoE Language Model》

接着,V2的工作就是在真正大规模场景下继续验证DeepSeek MoE的路线。实验验证了在小范围内已经做得足够扎实,才敢于把规模推上去。V2的专家数增加到了160个(之前多数大模型还是8个或16个),但这不是一蹴而就的,而是基于之前那篇论文一步一个脚印走过来的。

V2是一个236B的MoE模型,规模很大。236B的总参数里,激活参数只有21B,支持128K的长上下文。相比DeepSeek 67B(就是第一篇里的那个),V2的生成吞吐量提升了5.76倍,参数量变大了近4倍,算力反而节约了40%,速度还快了5倍多。可以说,从V2开始,DeepSeek笔下对成本的控制理念贯穿始终。

这篇论文还有一个很重要的原创技术:多头潜在注意力(Multi-Head Latent Attention,MLA)。这个技术最近在国外也很受关注,因为它是DeepSeek自己提出来的,不是别人的。这里尝试简单解释一下。Transformer中的多头注意机制里,有很多个head,每个head都有自己的K和value。当用来做生成时,你问一个问题,它一个token一个token地往后生成,每个新生成的token都要跟之前的所有历史token做一次attention。如果历史内容有5000个token,那么新生成的5000个token里的每个词都要重新跟这5000个历史token做attention,这当然非常贵。为了不重复计算历史token的K和value(因为它们不依赖当前新生成的词),大家普遍采用一个技巧:把历史所有的K和value存下来,这叫KV cache。但这样就用空间换了时间——GPU显存占用巨大。为了减少KV cache,研究者们发明了group query attention(GQA)——让多个head共享一个K和value,以及更激进的multi-query attention (MQA) ——所有query共用一个K和value,数量降到1。代价就是KV cache越做越少,性能也会越差。DeepSeek的MLA希望既保留多头的高性能,又大幅减少KV cache:他们先把K和value压缩到一个低维的latent向量里,存储时只存这个低维向量,用到时再映射回高维。这就在保持推理精度的同时,把KV cache降低了93%。

除了MLA,DeepSeek V2还做了大量的负载平衡:不同专家之间、不同GPU之间甚至不同设备间的通信要保证平衡。这些听起来不算多么创新的算法突破,更多的是一种工程上的细腻处理,但正是这些努力让DeepSeek V3的成本控制能力表现突出。

相比之下,同期做的MoE模型如Mistral 8x22B依然只用了8个专家,且专家之间并没有真正实现很好的分工,而DeepSeek V2把专家数加到了160,激活参数反而更小,部署成本甚至低于Mistral。这样对比下来,可见DeepSeek团队在极低成本下追求高性能的决心和能力。

而且从V2开始,DeepSeek的模型在后训练上并没有做特别精细的RLHF,看起来更偏向完成一个research work。他们似乎也并不急于通过高算力刷榜或做产品宣发。不过,由于成本极低,V2开始在国内大模型API市场触发了价格战。从各种意义上来看,DeepSeek V2是一款里程碑式的作品:在基座模型上实现了236B参数160个专家的规模,通过MLA等原创技术极大提升了性能和效率,同时将扩张成本压缩到了一个极为惊人的水平。

第四篇 2024年12月《DeepSeek-V3 Technical Report》

最后一篇基座模型论文就是最近获封“现象级”的DeepSeek V3,2024年12月发布。这是一个671B(6710亿)参数的超大规模模型,也是后面R1的基础模型。规模比V2大了近三倍,但依然延续了V2的核心思路:MLA和MoE的专家策略。但这次让它名声大噪的核心原因有两个:惊人的训练成本和稳定的一次性训练。

先说成本:只用2048张H800完成了训练,总体投入约557万美元。相比之下,Llama 3.1(一个4000亿参数的模型)的训练成本大约是三千万美元,差了近六倍。对于国内外数千甚至上万张H100/H800的大模型团队来说,这个数字极其震撼。而从V3开始,国外的开发者和大模型团队才开始认真审视DeepSeek的MoE和MLA技术,回溯他们之前的工作。

V3相比V2的创新点,有几处值得留意:
1. **负载平衡的新方式**:以前的平衡是在训练中增加损失函数来实现的,但V3采用了“loss-free balancing”,通过一个常数来实时监控每个专家是否被过度使用,如果某个专家过于繁忙,就通过调整常数来压制它的选择频率。这是一种非常直觉化的启发式方法,不需要显式训练。
2. **多词元预测(MTP)**:这篇论文中引入了多词元预测loss,要求模型不只预测下一个token,还要同时预测之后的更多token。好处是训练信号更丰富,迫使模型学习如何推断更远的内容,有利于提升推理能力。虽然这个idea并非V3团队原创,但敢于在大规模训练中应用这类新方法,而且放弃V2已有的稳固成果去闯新的路子,体现了DeepSeek团队的创新文化。
3. **全FP8低精度训练**:DeepSeek大规模使用了FP8精度进行训练,不仅降低了成本,还提升了训练速度。这在行业中很少有人敢做。为了确保稳定,他们研究了哪些中间变量保留高精度、哪些可以用FP8,并成功证明了混合精度训练是可行的。
4. **稳定性与无回滚**:论文特别强调,“整个训练是一次性完成的(one-shot),没有经历任何损失峰值或需要回滚”。这背后是他们强大的工程优化和团队协作的成果。

后训练方面,V3的SFT数据只有150万条(1.5M),相比一些模型的上千万甚至两千万条数据,规模小得惊人。他们也采用了DeepSeek R1(当时还是内部版本)的一些蒸馏数据,注重可验证性强的任务(如数学、代码)采用了规则反馈机制,而不是代用奖励模型;开放式问答则使用奖励模型。这种务实而高效的后训练策略,使得V3在基座模型基础上实现了显著提升,但也让我感觉到团队并不刻意去跑排行榜、刷分,更多是在追求低成本和高效能。

总结而言,DeepSeek V3完美沿袭了MoE和高效率的技术路线,在MLA、MTP、全FP8训练等关键创新点上做得“既大胆又精细”。它的成功不仅为团队积累了极高的声誉,也将国内大模型的价格战狠狠推向了新的高度。而从DeepSeek MoE到V2再到V3,一脉相承的创新文化与冒险精神已经烙在了这家公司的基因里。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:DeepSeek 9篇论文解读精华:关键知识点总结(上)要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/LargeLanguageModel/2025030125769.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-03 20:42
AI驱动的员工英语口语教练Lucida

LucidaAI是一款面向企业的AI英语口语教练,通过实时对话提供发音、语法、词汇和流利度的个性化反馈。采用端到端加密并支持合规定制,定价策略注重普及化,旨在以低成本提升团队英语沟通能力。

AI热点2026-07-03 20:42
Screenshot2Code:截图转代码工具

Screenshot2Code工具能够从截图中自动识别代码,并将其转换为可直接运行的代码。支持Python、HTML及API接口信息提取,帮助开发者快速复用他人分享的代码片段,从而显著提升工作效率。这个工具极大简化了代码复用过程。

AI热点2026-07-03 20:42
SpeakStruct 语音转结构化数据 可自定义模板

SpeakStruct通过可自定义模板将语音转换为结构化数据,适用于会议记录、客户通话等场景。核心功能包括自定义模板、准确转录和随处捕捉,使口语信息直接转化为可用的数据资产。

AI热点2026-07-03 20:41
AI驱动语音治疗应用 IzzyAI

IzzyAI是一款AI驱动的语音治疗应用,提供全天候服务。通过智能治疗师头像互动,系统评估并治疗五种常见语音语言障碍,融合语音与面部识别技术给予实时反馈。内置综合评估、个性化练习、进展报告及支持性社区,提升治疗效果。

延伸阅读