DeepSeek团队27篇论文揭秘：揭秘AI多面手背后的技术实力

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

DeepSeek团队27篇论文揭秘：揭秘AI多面手背后的技术实力

热心网友时间：2026-05-19

转载

过去一年，关于DeepSeek核心人才流动的讨论从未间断。从早期的罗福莉，到初代大模型作者王炳宣、多模态骨干阮翀、R1核心贡献者郭达雅，这些名字的相继离开，难免引发外界疑虑：核心作者接连被挖，DeepSeek赖以成名的技术壁垒是否会因此松动？

要回答这个问题，或许需要换一个视角。我们决定抛开传闻，直接回到技术产出本身——用代码和数据分析，来透视这家公司的研发体系究竟是如何运转的。

我们系统梳理了DeepSeek近两年发布的27篇核心论文与技术报告，逐篇拆解署名作者，构建了一个包含328位研发人员的分析池。对于V2、V3、V4等大型技术报告，我们聚焦于“研究与工程”名单；对于其他学术论文，则采用原始署名。最终，一幅关于DeepSeek研发团队的真实图景逐渐清晰。

数据显示了几个关键特征：团队内部几乎没有“部门墙”，超过半数的研发人员（168人）形成了稳定、重复的合作关系，累计合作链路高达319条。其组织模式类似“主力兵团+特种小队”的配合——一个庞大的基座模型兵团，与系统效率、数学推理、多模态等六支精锐小队高效协同。此外，团队中顶尖高校背景的研究者云集，Top 25的高频作者中，近四成来自北京大学。

更值得注意的是其研发文化：超过半数的研发人员在跨界工作，其中横跨三个及以上技术方向的“多边形战士”多达79人。研究员们往往根据具体问题和兴趣动态组队。而纵观所有论文，一个鲜明的焦点浮出水面：它们几乎不追逐榜单分数，而是死磕具体的工程瓶颈——如何更高效地利用算力，如何处理长上下文时的缓存成本，如何确保巨型模型训练的稳定性。

DeepSeek核心论文共著关系网络。图中每个节点代表一位研究作者，连线代表共同署名关系。

深入分析这27篇论文后，DeepSeek的技术哲学可以概括为：不盲目堆叠算力，不沉迷榜单竞争；坚持先小规模验证，再大规模集成；将系统效率视为生命线，以此突破算力的根本性限制。

1. 被挖走的明星，在体系中排第几？

DeepSeek的论文主要覆盖七大方向：基座模型、系统/效率、数学/证明、多模态、代码、OCR、推理/强化学习。要评估一位研发人员的影响力，可以从两个维度观察：参与论文的数量，以及覆盖技术方向的广度。需要明确的是，这仅是基于公开署名的统计，不代表实际的贡献排序或组织层级。我们将那些涉足三个及以上方向的研发者，称为“多边形战士”。

这个群体有多大？答案是79人。

那么，那些在传闻中被重金争抢的名字，在这张合作网络中究竟处于什么位置？

数据显示，阮翀的参与度确实最高——覆盖了18篇论文、6个技术方向，从MoE架构到数学证明再到多模态，其身影几乎无处不在。他本硕毕业于北京大学，于2024年加入DeepSeek，深度参与了DeepSeek-VL、V3和R1等关键项目，是VL2的通讯作者。他于今年1月加入元戎启行并担任首席科学家。

郭达雅参与了11篇论文，覆盖4个方向，在高频作者中并列第12位。王炳宣参与了10篇论文，覆盖5个方向，并列第17位。毫无疑问，他们都是核心人员，他们的离开当然是损失。但关键在于：DeepSeek内部，像“郭达雅”和“王炳宣”这样的人才储备还有多少？

答案是，参与过10篇以上论文的研发作者共有24位。即便失去了三位，后面仍有21位参与强度相当的核心骨干。如果把DeepSeek比作一支球队，虽然明星球员被挖走，但这支球队的人才板凳深度，可能比外界想象的要厚实得多。

Top 25高频研发作者。统计基于研发作者池，参与论文数和方向数不代表贡献度排序。

“跨界”是另一个值得玩味的现象。在328位研发作者中，仅在1个方向出现过的有158人。剩下的170人至少跨越了两个方向，其中横跨3个及以上方向的“多边形战士”正是那79人。

一个极端的例子是李宇琨，他参与了14篇论文，横跨全部7个技术方向，从初代DeepSeek LLM一路跟进到最新的V4，谷歌学术引用量超过两万。作为DeepSeek的“首位员工”，他于2024年从字节跳动搜索团队加入，主要负责预训练数据相关工作。这也印证了一个常被忽略的事实：AI行业的人才流动从来不是单向的，DeepSeek同样在从外部吸引顶尖人才。

DeepSeek研发作者覆盖技术方向数分布。覆盖方向数按7个主要技术方向计算。

2. “多边形战士”是如何炼成的？

外界总在追问：DeepSeek还有天才吗？

每家AI公司都有其明星人物。DeepSeek的不同之处在于，它构建了一套机制，能让一批相对年轻的研究员，迅速在多个技术方向之间自由组队、探索，并获得资源支持，过程中受到的约束和限制较少。

以辛华剑为例，他在DeepSeek实习期间，主导开发了专注于数学证明的DeepSeek-Prover系列模型，并成为相关论文的第一作者。他曾透露，Prover项目在内部最初只是一个独立的探索性尝试，初衷仅仅是验证能否通过形式化系统构造出更严格的推理数据。

这与大多数公司的流程截然不同。常见的模式是先设立部门、确定KPI、分配预算，再启动项目。而DeepSeek的顺序往往是反过来的：先有人发现一个值得深究的问题，再围绕这个问题去召集志同道合的人和调配资源。

这种“动态组队”的模式在论文合作网络中留下了清晰的痕迹。通过署名关系聚类，可以观察到4个相对集中的协作小组：基模大兵团、系统效率、数学与推理、多模态，以及另外3个更小规模的协作簇。需要说明的是，这些“组”并不对应真实的部门架构，只反映了研究人员之间稳定的合作倾向。

DeepSeek研发作者合作网络分布。合作小组根据稳定的共同署名关系识别。

有趣的是，这种网络结构与创始人梁文锋描述的组织方式高度吻合。梁文锋曾表示：“我们一般不进行前置分工，而是自然分工。每个人都有自己的成长经历和想法，不需要被推动。当一个想法显示出潜力时，我们也会自上而下地调配资源。”

据媒体报道，DeepSeek的组织层级非常扁平，研究团队大体只有梁文锋和研究员两个层级。“有时开始一个新方向，就是因为有三五个人都觉得一个点子不错，然后就一起做了。”梁文锋的角色更接近于导师：组织研发、协调资源，并在共同成果上作为通讯作者署名。

这套组织方式还有一个在AI行业极为罕见的特征：不鼓励加班。平日多数成员在晚上6到7点离开公司，不打卡，也没有明确的绩效考核。梁文锋的逻辑很直接：“一个人每天能进行高质量工作的时间很难超过6到8小时。在疲劳状态下做出的昏庸判断，反而会浪费宝贵的算力资源，得不偿失。”

分析还发现，DeepSeek的论文作者中，多为2024年前后毕业的清华、北大、中科大等高校的本硕博学生。高频作者Top 25中，近四成毕业于北大。但这不应被简单理解为“名校人海战术”。行业知情人士透露，许多AI实验室的招聘取向正在发生变化，在校博士生比拥有大厂资深背景的“老兵”更受青睐。

一位AI公司董事长曾分享，自ChatGPT出现后，他开始挤出午餐时间面试有潜力的在读博士生，即使再小的项目也会深入探讨至少一小时，从基础公式推导问到工程细节，以筛选出真正的创新者。他指出，大多数从业者在2024年才全面转向GPT相关的架构研究，这意味着大家几乎站在同一起跑线上。“在这一时间点后毕业的博士，尚未被行业固有惯性所束缚，常常能带来意想不到的突破。”

梁文锋自己也说过，做出DeepSeek V2的，“都是一些顶尖高校的应届毕业生、没毕业的博四博五实习生，还有一些毕业才几年的年轻人。”

那么，DeepSeek团队的稳定性究竟如何？交叉比对论文署名可以发现：在2024年1月发布初代模型论文的86位作者中，到2026年4月的V4报告时，仍有75人出现在署名列表中。两年半时间，初代核心团队有近九成成员选择留下。

根据V4技术报告的“研究与工程”名单，在269名研发工程作者中，论文标注已离职者为10人，占比约3.7%。作为对比，有媒体报道称，截至今年4月，过去一年约有60至70名字节跳动旗下Seed团队的成员流向各大模型公司。这些数字虽不完全等同于真实的流失率，但足以表明，DeepSeek的核心研发网络并未因为少数明星人物的离开而瓦解。

3. 两年27篇论文，死磕的是什么？

如果只看外界声量，V3、V4这些庞大的基座模型技术报告无疑最吸引眼球。但统计论文主题分布后，结果却有些反直觉：在27篇论文中，数量最多的并非基座模型，而是系统/效率类论文，共计7篇，超过了基座模型（5篇）和数学（5篇）。

这7篇论文分别是：DeepSeekMoE、ESFT、NSA、Insights into V3、mHC、Conditional Memory和DualPath。它们没有一篇是在追逐榜单分数，全部聚焦于解决同一类底层问题：如何用更少的算力，完成更多、更复杂的任务。

DeepSeek近两年27篇论文时间线。横轴表示每篇论文或技术报告的去重作者数，颜色区分不同技术方向。

逐一拆解这些论文，可以看到三类核心攻关方向：

第一类，算力利用效率。例如ESFT关注如何更经济高效地完成模型微调；而Insights into V3则复盘了如何在大规模集群训练中提升硬件利用率和系统稳定性。

第二类，长上下文缓存成本。当模型需要处理超长文本或执行复杂Agent任务时，注意力计算和KV Cache（保存历史上下文的中间记忆）的成本会急剧上升。NSA、Conditional Memory和DualPath等研究，目标都是压缩模型“记忆历史”所带来的开销。

第三类，超大规模模型训练的稳定性。DeepSeekMoE探索在参数规模膨胀时，如何只激活部分专家网络；mHC则试图增强深层网络中的信号传播，以降低万亿美元参数级别模型训练的不稳定性。

梁文锋曾提出一个假设：“能否用现存的一部分算力，就实现当前所有的智能？”这7篇系统论文，可以看作是DeepSeek团队对这一问题持续给出的工程答卷。

另一个细节是，27篇论文的作者规模呈现出“大小搭配”的节奏。基座模型报告往往是动辄两三百人的“大兵团作战”，而系统、数学、多模态等方向的论文，通常只有6到20人的精干团队。前者负责集成与总攻，后者则像“特种小队”，负责低成本单点突破与技术验证，待路径跑通后，再将其整合进下一代旗舰模型。

4. 从R1到V4：技术路线的收敛与集成

如果将DeepSeek的研发历程视为一场长跑，那么V4的发布并非一次突如其来的爆发，更像是多条并行已久的技术路线，在两年探索后的一次集中收束与集成。

DeepSeek技术模块演进示意图。图中展示的是论文中可追溯的技术路线和模块关系，不等同于严格的代码复用率。

第一条主线是参数效率。从V2引入MoE（稀疏混合专家架构），到V3延续并强化多Token预测策略，再到V4在MoE框架上继续压低激活参数和推理成本，这条路线始终朝着“用更少的激活参数，完成同等甚至更复杂任务”的方向演进。

第二条主线是长上下文效率。模型需要处理的历史越长，保存中间状态（KV Cache）的成本就越高。可以打一个比方：传统大模型处理长文本就像每次回答问题都要把整本书从头翻一遍。DeepSeek从V2开始就在思考，能否对信息进行分级处理——近处内容保留原文，远处内容做成目录，更远处则压缩为章节摘要？

这个思路从V2的MLA（多头潜在注意力），演进到V3.2的NSA（原生稀疏注意力），最终在V4的Hybrid Attention（混合注意力系统）中得以深化。V4技术报告显示，在处理100万Token的长上下文时，V4-Pro的单Token推理计算量约为V3.2的27%，KV Cache占用仅为后者的10%。

第三条主线是后训练能力整合。R1证明了大规模强化学习能显著激发模型的推理能力。到了V4，思路进一步发展为：让模型在数学、代码等不同领域分别进行高强度专项训练，变得足够强大后，再通过“同策略蒸馏”（OPD）等手法，将各项能力统一整合到一个模型中，从而减少混合训练时可能产生的相互干扰。

此外，Prover系列服务于数学与形式化推理，OCR路线为视觉输入提供了低成本压缩方案，mHC与Muon则是更底层的训练稳定性优化器。每一个关键模块，都先在小规模的专题论文中进行反复试验与验证，随后被集成到旗舰模型中，最终沉淀为整个团队共享的工程实践与知识库。

从这个角度看，V4的重点并非单纯追求参数量的“更大”或榜单分数的“更强”，而是致力于让模型既能进行更深度的思考，也能在更长、更复杂的任务序列中，以显著降低的成本持续、稳定地运行。

这完整地诠释了DeepSeek的技术思路：不盲目堆砌算力硬件，不沉迷于榜单刷分；坚持先小规模验证技术可行性，再进行大规模工程集成；将系统效率视为核心命脉，以此突破算力资源的根本性约束。纵观27篇论文，几乎没有围绕基准测试刷分的工作，全部都在攻克具体的工程瓶颈。

梁文锋对此有过阐述：“如果目标是快速做出应用，沿用Llama架构短平快地推出产品是合理的。但我们的目的地是AGI（通用人工智能），这就需要研究新的模型结构，在有限的资源下实现更强的模型能力。”

值得注意的是，DeepSeek甚至将底层的算子库从主流的CUDA和Triton，替换为北大团队开源的TileLang。V3.1采用的数据压缩格式，也是针对下一代国产芯片的设计而优化的。在追求极致效率的同时，他们还在布局一件更具长远意义的事：构建基于国产生态的大模型研发体系。