DeepSeek团队27篇论文揭秘：揭秘AI多面手背后的技术实力

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

DeepSeek团队27篇论文揭秘：揭秘AI多面手背后的技术实力

热心网友时间：2026-05-19

转载

79位跨方向骨干、87%的初代留存率，以及一套让年轻人围绕问题自由组队的机制——这些数字勾勒出DeepSeek研发团队的另一面。

过去一年，关于DeepSeek的人才流动消息从未间断。从早期的罗福莉离职，到初代大模型作者王炳宣、多模态骨干阮翀、R1核心作者郭达雅相继被其他公司高薪挖走。核心作者接连离开，一个自然的问题是：DeepSeek的技术壁垒会不会因此松动？

要回答这个问题，或许需要换一个视角。我们决定从他们公开发布的技术成果入手，进行一次“数据侦探”式的观察。

通过梳理DeepSeek近两年发布的27篇核心论文和技术报告，逐篇拆解署名作者，最终得到一份包含328人的研发作者池。分析这份名单，可以发现几个有趣的特点：团队内部没有明显的“部门墙”，328位作者中有168人形成了稳定、重复的合作关系；研发架构呈现“兵团+小组”模式，一个基模大兵团与多支精锐特种小队高效配合；团队背景高度集中，Top25研发作者中近四成来自北京大学；更重要的是，研发活动高度跨界，超半数作者涉足多个方向，其中横跨3个及以上技术方向的“多边形战士”多达79人。

这些研究员并非固定在某个部门，而是根据兴趣和问题动态集结。他们的论文主题也颇具特色，很少围绕榜单刷分，更多聚焦于底层工程瓶颈：如何更好地利用算力，处理长上下文时如何降低缓存成本，模型规模扩大后如何保持训练稳定。

1. 被挖走的那几位，到底排第几？

DeepSeek的27篇论文，主要覆盖基座模型、系统/效率、数学/证明、多模态、代码、OCR、推理/强化学习这七个技术方向。

要评估一位研究员在合作网络中的参与度，可以从两个维度看：参与论文的数量，以及覆盖技术方向的广度。需要说明的是，这两个指标仅来自论文署名统计，不代表具体的贡献大小或组织层级。我们将同时覆盖3个及以上技术方向的研发作者，称为“多边形战士”。

这个数字是多少？79人。

那么，那些在传闻中被重金争抢的名字，在这个网络里处于什么位置？

阮翀确实是参与度最高的一位——覆盖了18篇论文、6个方向，从MoE架构到数学证明再到多模态，几乎无处不在。他本硕均毕业于北京大学，早年从事NLP研发，2024年加入DeepSeek，参与了DeepSeek-VL、V3和R1等工作，是VL2的通讯作者。他于今年1月加入元戎启行并担任首席科学家。

郭达雅参与了11篇论文，覆盖4个方向，在高频研发作者中并列第12位。王炳宣参与了10篇论文，覆盖5个方向，并列第17位。

毫无疑问，他们都是核心人员，他们的离开当然是损失。但关键问题在于：DeepSeek还有多少个“郭达雅”和“王炳宣”？

数据显示，像他们这样参与10篇以上论文的研发作者共有24位。即便离开了三位，后面还有21位参与强度相当的研究员。如果把DeepSeek看作一支球队，虽然被挖走了几位核心球员，但这支球队的人才储备厚度，可能比外界想象的要深。

更值得关注的是“跨界”的普遍性。328位研发作者中，只在1个方向出现过的有158人。剩下的170人，至少跨过两个方向。其中，横跨3个及以上方向的，正是那79位“多边形战士”。

举一个极端的例子，李宇琨参与了14篇论文，横跨全部7个方向，从初代DeepSeek LLM一路到最新的V4，谷歌学术引用量超过两万。他是DeepSeek的“首位员工”，2024年从字节跳动搜索团队离职后加入，负责预训练数据的相关工作。

这也印证了一个常被外界忽略的事实：在AI行业，人才一直是多向流动的，DeepSeek同样也在从别处吸引顶尖人才。

2. 多边形战士是如何长成的？

外界总在讨论DeepSeek还有没有天才。其实，每家AI公司都有明星研究员。DeepSeek的不同之处，在于它能让一批很年轻的研究员，迅速在多个技术方向之间自由组队、探索，并获得资源支持，整个过程较少受到传统组织架构的约束。

辛华剑在DeepSeek实习期间，主导开发了专注于数学证明的DeepSeek-Prover系列模型，他也是该系列V1.5论文的第一作者。他曾透露，Prover项目在内部最初只是一个独立探索，初衷是验证能否通过形式化系统构造出更严格的推理数据。

这与大多数公司的流程截然不同。许多大厂会先设立部门、确定KPI、分配预算，再启动项目。而DeepSeek的顺序往往是反过来的：先有人觉得某个问题值得深入研究，再围绕这个问题去寻找志同道合的伙伴和资源。

在论文合作网络里，这种“动态组队”的方式留下了清晰的痕迹。根据署名关系进行聚类，可以看到4个相对集中的协作小组：基模大兵团、系统效率、数学与推理、多模态，以及另外3个更小的协作簇。需要说明的是，这些“组”并不对应DeepSeek真实的部门划分，只反映了谁更经常与谁合作。

有趣的是，这个结构恰好与梁文锋描述的组织方式高度吻合。梁文锋曾表示：“我们一般不前置分工，而是自然分工。每个人有自己独特的成长经历，都是自带想法的，不需要push他。当一个idea显示出潜力，我们也会自上而下地去调配资源。”

据晚点LatePost报道，DeepSeek的组织层级很薄，研究团队大体只有梁文锋和研究员两个层级。“有时开始一个新方向，就是因为有三五个人都觉得一个idea不错，然后就一起做了。”梁文锋的角色更接近一位导师：组织研发、协调资源，并在共同成果上作为通讯作者署名。

这套组织方式还有一个在AI行业里极为罕见的特征：不鼓励加班。平日多数成员在晚上6到7点离开公司，不打卡，也没有明确的绩效考核。梁文锋的逻辑很直接：“一个人每天能高质量工作的时间很难超过6到8小时。加班疲劳下的昏庸判断反而会浪费宝贵的算力资源，得不偿失。”

梳理发现，DeepSeek的论文作者中，多为2024年前后毕业的清华、北大、中科大等高校的本硕博学生。排名前25的高频研发作者里，近四成毕业于北大。但这不应被简单理解为“名校人海战术”。据了解，不少AI实验室的招聘取向都在发生变化，在校博士比拥有多年大厂经验的“老兵”更受青睐。

一位AI公司董事长曾分享，自从ChatGPT出现后，他开始挤出午饭时间面试有潜力的在读博士生，再小的项目都会聊上至少一小时，从基础公式推导问到工程细节把控，以筛选出真正的创新者。他指出，大多数人都是在2024年才开始转向GPT相关的架构研究，相当于站在了同一起跑线上。“这一时间点后毕业的博士，还未被行业惯性束缚，常能带来意想不到的突破。”

梁文锋自己也说过，做出DeepSeek V2的，“都是一些Top高校的应届毕业生、没毕业的博四博五实习生，还有一些毕业才几年的年轻人。”

那么，DeepSeek团队的稳定性究竟如何？交叉比对论文署名可以发现：初代模型论文（2024年1月）的86位作者中，到V4（2026年4月）仍然出现在署名里的有75人。两年半时间过去，初代团队近九成成员仍在。

再看V4的Research & Engineering名单，269名研发工程作者中，论文标注已离职者为10人，占比约3.7%。作为对比，据Z Finance报道，截至今年4月，过去一年约有60至70名字节跳动Seed团队的成员流向了各大模型公司。

这些数字并不等同于DeepSeek真实的整体流失率，但它们至少说明，其核心研发网络并没有因为几位明星研究员的出走而散架。

3. 两年27篇论文，死磕系统效率

如果只看外界的声量，V3、V4这些基座模型技术报告无疑最引人注目。

但统计论文主题分布，结果却有些反直觉：27篇论文中数量最多的，并非基座模型，而是系统/效率类论文，共有7篇，超过了基座模型（5篇）和数学（5篇）。

这7篇论文分别是：DeepSeekMoE、ESFT、NSA、Insights into V3、mHC、Conditional Memory和DualPath。值得注意的是，没有一篇是在单纯地刷榜（benchmark），它们全部在解决同一类底层问题：如何用更少的算力，做更多的事。

逐一拆解这些论文，可以看到三类核心挑战：

第一类，如何更高效地利用算力。例如ESFT关注如何更经济地完成模型微调，而Insights into V3则复盘了如何在大规模集群训练中提高硬件利用率和稳定性。

第二类，处理长上下文时如何降低缓存成本。当模型需要处理更长文本，或执行复杂Agent任务时，注意力计算和KV Cache（模型保存历史上下文的中间记忆）的成本会急剧上升。NSA、Conditional Memory和DualPath这几篇论文，都在尝试压缩模型“记住历史”所需付出的代价。

第三类，模型规模变大后如何训练得更稳定。DeepSeekMoE探索的是当参数规模膨胀时，如何只激活更少的专家网络；mHC则试图增强深层网络中的信号传播，以降低超大规模模型训练时的不稳定性。

梁文锋曾提出一个假设：“能不能用现存的一部分算力，就实现现在所有的智能？”这7篇系统相关的论文，可以看作DeepSeek团队为回答这个问题所提交的阶段性答卷。

另一个细节是，27篇论文的作者规模呈现出“大小搭配”的节奏。基座模型报告往往是动辄200到300人的“全员参与”，而系统、数学、多模态方向的论文，通常只有6到20人的精干团队。

前者像大兵团作战，后者则像特种小队的单点突破。先用小团队低成本验证技术路径，跑通后再集成到下一代旗舰模型中。

4. 从R1到V4，技术底牌是如何攒出来的？

如果把DeepSeek的研发历程看作一场长跑，那么V4的发布并非一次突然的爆发，更像是几条并行已久的技术路线，在两年后的一次集中收束与集成。

第一条主线是参数效率。从V2引入MoE（稀疏混合专家架构），到V3延续并强化多Token预测策略，再到V4在MoE框架上继续压低激活参数和推理成本。这条路线始终朝着“激活更少参数、完成同样任务”的方向演进。

第二条主线是长上下文效率。模型需要处理的历史上下文越长，需要保存的中间记忆（KV Cache）就越多，成本也越高。可以打一个比方：传统大模型有点像把整本书摊开，每回答一个问题都要从头翻一遍。DeepSeek从V2开始就在思考，能否对信息进行分级处理？比如把近处内容保留原文、远处内容做成目录、更远处内容压缩成章节摘要？

这个想法从V2的MLA（多头潜在注意力），到V3.2的NSA（原生稀疏注意力），一直演化到V4的Hybrid Attention（混合注意力系统）。V4技术报告显示，在100万Token的长上下文场景下，V4-Pro的单Token推理计算量约为V3.2的27%，KV Cache占用约为其10%。

第三条主线是后训练能力的整合。R1证明了大规模强化学习可以显著激发模型的推理能力。到了V4，思路进一步延伸：在数学、代码等领域分别进行强化训练，再通过“毕业典礼”——即同策略蒸馏（OPD）——将能力合并进一个统一的模型，从而减少不同能力在混合训练时可能产生的相互干扰。

此外，Prover系列服务于数学与形式化推理，OCR路线为视觉输入压缩提供低成本方案，mHC与Muon则是更底层的训练稳定性优化器。每一个关键模块都先在小规模的专题论文中经过反复试验和验证，随后被集成到旗舰模型中，最终沉淀为整个团队共享的工程实践。

从这个角度看，V4的重点或许不在于变得“更大”或“更强”，而在于让模型不仅能“想得更深”，也能在更长、更复杂的任务中，以更低的成本持续、稳定地运行。

纵观这27篇论文，一个清晰的思路浮现出来：不盲目堆砌算力，不沉迷榜单刷分；先以小团队验证技术可行性，再集成到主流产品；死磕系统效率，力求突破现有算力限制。这些论文里几乎没有围绕benchmark刷分的工作，全都在瞄准具体的工程瓶颈下功夫。

梁文锋对此有过阐述：“如果目标是做应用，沿用Llama结构短平快上产品也合理。但我们的目的地是AGI，这就需要研究新的模型结构，在有限资源下实现更强的模型能力。”

值得注意的是，DeepSeek甚至将底层算子库从主流的CUDA和Triton，换成了北京大学团队开源的TileLang。V3.1采用的数据压缩格式，也是针对下一代国产芯片设计的。在追求极致效率的同时，他们还在布局一件更长远的事：基于国产生态来构建大模型的基础设施。