DeepSeek团队27篇论文揭秘:揭秘AI多面手背后的技术实力
过去一年,关于DeepSeek核心人才流动的讨论从未间断。从早期的罗福莉,到初代大模型作者王炳宣、多模态骨干阮翀、R1核心贡献者郭达雅,这些名字的相继离开,难免引发外界疑虑:核心作者接连被挖,DeepSeek赖以成名的技术壁垒是否会因此松动?
要回答这个问题,或许需要换一个视角。我们决定抛开传闻,直接回到技术产出本身——用代码和数据分析,来透视这家公司的研发体系究竟是如何运转的。
我们系统梳理了DeepSeek近两年发布的27篇核心论文与技术报告,逐篇拆解署名作者,构建了一个包含328位研发人员的分析池。对于V2、V3、V4等大型技术报告,我们聚焦于“研究与工程”名单;对于其他学术论文,则采用原始署名。最终,一幅关于DeepSeek研发团队的真实图景逐渐清晰。
数据显示了几个关键特征:团队内部几乎没有“部门墙”,超过半数的研发人员(168人)形成了稳定、重复的合作关系,累计合作链路高达319条。其组织模式类似“主力兵团+特种小队”的配合——一个庞大的基座模型兵团,与系统效率、数学推理、多模态等六支精锐小队高效协同。此外,团队中顶尖高校背景的研究者云集,Top 25的高频作者中,近四成来自北京大学。
更值得注意的是其研发文化:超过半数的研发人员在跨界工作,其中横跨三个及以上技术方向的“多边形战士”多达79人。研究员们往往根据具体问题和兴趣动态组队。而纵观所有论文,一个鲜明的焦点浮出水面:它们几乎不追逐榜单分数,而是死磕具体的工程瓶颈——如何更高效地利用算力,如何处理长上下文时的缓存成本,如何确保巨型模型训练的稳定性。

DeepSeek核心论文共著关系网络。图中每个节点代表一位研究作者,连线代表共同署名关系。
深入分析这27篇论文后,DeepSeek的技术哲学可以概括为:不盲目堆叠算力,不沉迷榜单竞争;坚持先小规模验证,再大规模集成;将系统效率视为生命线,以此突破算力的根本性限制。
1. 被挖走的明星,在体系中排第几?
DeepSeek的论文主要覆盖七大方向:基座模型、系统/效率、数学/证明、多模态、代码、OCR、推理/强化学习。要评估一位研发人员的影响力,可以从两个维度观察:参与论文的数量,以及覆盖技术方向的广度。需要明确的是,这仅是基于公开署名的统计,不代表实际的贡献排序或组织层级。我们将那些涉足三个及以上方向的研发者,称为“多边形战士”。
这个群体有多大?答案是79人。
那么,那些在传闻中被重金争抢的名字,在这张合作网络中究竟处于什么位置?
数据显示,阮翀的参与度确实最高——覆盖了18篇论文、6个技术方向,从MoE架构到数学证明再到多模态,其身影几乎无处不在。他本硕毕业于北京大学,于2024年加入DeepSeek,深度参与了DeepSeek-VL、V3和R1等关键项目,是VL2的通讯作者。他于今年1月加入元戎启行并担任首席科学家。
郭达雅参与了11篇论文,覆盖4个方向,在高频作者中并列第12位。王炳宣参与了10篇论文,覆盖5个方向,并列第17位。毫无疑问,他们都是核心人员,他们的离开当然是损失。但关键在于:DeepSeek内部,像“郭达雅”和“王炳宣”这样的人才储备还有多少?
答案是,参与过10篇以上论文的研发作者共有24位。即便失去了三位,后面仍有21位参与强度相当的核心骨干。如果把DeepSeek比作一支球队,虽然明星球员被挖走,但这支球队的人才板凳深度,可能比外界想象的要厚实得多。

Top 25高频研发作者。统计基于研发作者池,参与论文数和方向数不代表贡献度排序。
“跨界”是另一个值得玩味的现象。在328位研发作者中,仅在1个方向出现过的有158人。剩下的170人至少跨越了两个方向,其中横跨3个及以上方向的“多边形战士”正是那79人。
一个极端的例子是李宇琨,他参与了14篇论文,横跨全部7个技术方向,从初代DeepSeek LLM一路跟进到最新的V4,谷歌学术引用量超过两万。作为DeepSeek的“首位员工”,他于2024年从字节跳动搜索团队加入,主要负责预训练数据相关工作。这也印证了一个常被忽略的事实:AI行业的人才流动从来不是单向的,DeepSeek同样在从外部吸引顶尖人才。

DeepSeek研发作者覆盖技术方向数分布。覆盖方向数按7个主要技术方向计算。
2. “多边形战士”是如何炼成的?
外界总在追问:DeepSeek还有天才吗?
每家AI公司都有其明星人物。DeepSeek的不同之处在于,它构建了一套机制,能让一批相对年轻的研究员,迅速在多个技术方向之间自由组队、探索,并获得资源支持,过程中受到的约束和限制较少。
以辛华剑为例,他在DeepSeek实习期间,主导开发了专注于数学证明的DeepSeek-Prover系列模型,并成为相关论文的第一作者。他曾透露,Prover项目在内部最初只是一个独立的探索性尝试,初衷仅仅是验证能否通过形式化系统构造出更严格的推理数据。
这与大多数公司的流程截然不同。常见的模式是先设立部门、确定KPI、分配预算,再启动项目。而DeepSeek的顺序往往是反过来的:先有人发现一个值得深究的问题,再围绕这个问题去召集志同道合的人和调配资源。
这种“动态组队”的模式在论文合作网络中留下了清晰的痕迹。通过署名关系聚类,可以观察到4个相对集中的协作小组:基模大兵团、系统效率、数学与推理、多模态,以及另外3个更小规模的协作簇。需要说明的是,这些“组”并不对应真实的部门架构,只反映了研究人员之间稳定的合作倾向。

DeepSeek研发作者合作网络分布。合作小组根据稳定的共同署名关系识别。
有趣的是,这种网络结构与创始人梁文锋描述的组织方式高度吻合。梁文锋曾表示:“我们一般不进行前置分工,而是自然分工。每个人都有自己的成长经历和想法,不需要被推动。当一个想法显示出潜力时,我们也会自上而下地调配资源。”
据媒体报道,DeepSeek的组织层级非常扁平,研究团队大体只有梁文锋和研究员两个层级。“有时开始一个新方向,就是因为有三五个人都觉得一个点子不错,然后就一起做了。”梁文锋的角色更接近于导师:组织研发、协调资源,并在共同成果上作为通讯作者署名。
这套组织方式还有一个在AI行业极为罕见的特征:不鼓励加班。平日多数成员在晚上6到7点离开公司,不打卡,也没有明确的绩效考核。梁文锋的逻辑很直接:“一个人每天能进行高质量工作的时间很难超过6到8小时。在疲劳状态下做出的昏庸判断,反而会浪费宝贵的算力资源,得不偿失。”
分析还发现,DeepSeek的论文作者中,多为2024年前后毕业的清华、北大、中科大等高校的本硕博学生。高频作者Top 25中,近四成毕业于北大。但这不应被简单理解为“名校人海战术”。行业知情人士透露,许多AI实验室的招聘取向正在发生变化,在校博士生比拥有大厂资深背景的“老兵”更受青睐。
一位AI公司董事长曾分享,自ChatGPT出现后,他开始挤出午餐时间面试有潜力的在读博士生,即使再小的项目也会深入探讨至少一小时,从基础公式推导问到工程细节,以筛选出真正的创新者。他指出,大多数从业者在2024年才全面转向GPT相关的架构研究,这意味着大家几乎站在同一起跑线上。“在这一时间点后毕业的博士,尚未被行业固有惯性所束缚,常常能带来意想不到的突破。”
梁文锋自己也说过,做出DeepSeek V2的,“都是一些顶尖高校的应届毕业生、没毕业的博四博五实习生,还有一些毕业才几年的年轻人。”
那么,DeepSeek团队的稳定性究竟如何?交叉比对论文署名可以发现:在2024年1月发布初代模型论文的86位作者中,到2026年4月的V4报告时,仍有75人出现在署名列表中。两年半时间,初代核心团队有近九成成员选择留下。
根据V4技术报告的“研究与工程”名单,在269名研发工程作者中,论文标注已离职者为10人,占比约3.7%。作为对比,有媒体报道称,截至今年4月,过去一年约有60至70名字节跳动旗下Seed团队的成员流向各大模型公司。这些数字虽不完全等同于真实的流失率,但足以表明,DeepSeek的核心研发网络并未因为少数明星人物的离开而瓦解。
3. 两年27篇论文,死磕的是什么?
如果只看外界声量,V3、V4这些庞大的基座模型技术报告无疑最吸引眼球。但统计论文主题分布后,结果却有些反直觉:在27篇论文中,数量最多的并非基座模型,而是系统/效率类论文,共计7篇,超过了基座模型(5篇)和数学(5篇)。
这7篇论文分别是:DeepSeekMoE、ESFT、NSA、Insights into V3、mHC、Conditional Memory和DualPath。它们没有一篇是在追逐榜单分数,全部聚焦于解决同一类底层问题:如何用更少的算力,完成更多、更复杂的任务。

DeepSeek近两年27篇论文时间线。横轴表示每篇论文或技术报告的去重作者数,颜色区分不同技术方向。
逐一拆解这些论文,可以看到三类核心攻关方向:
第一类,算力利用效率。例如ESFT关注如何更经济高效地完成模型微调;而Insights into V3则复盘了如何在大规模集群训练中提升硬件利用率和系统稳定性。
第二类,长上下文缓存成本。当模型需要处理超长文本或执行复杂Agent任务时,注意力计算和KV Cache(保存历史上下文的中间记忆)的成本会急剧上升。NSA、Conditional Memory和DualPath等研究,目标都是压缩模型“记忆历史”所带来的开销。
第三类,超大规模模型训练的稳定性。DeepSeekMoE探索在参数规模膨胀时,如何只激活部分专家网络;mHC则试图增强深层网络中的信号传播,以降低万亿美元参数级别模型训练的不稳定性。
梁文锋曾提出一个假设:“能否用现存的一部分算力,就实现当前所有的智能?”这7篇系统论文,可以看作是DeepSeek团队对这一问题持续给出的工程答卷。
另一个细节是,27篇论文的作者规模呈现出“大小搭配”的节奏。基座模型报告往往是动辄两三百人的“大兵团作战”,而系统、数学、多模态等方向的论文,通常只有6到20人的精干团队。前者负责集成与总攻,后者则像“特种小队”,负责低成本单点突破与技术验证,待路径跑通后,再将其整合进下一代旗舰模型。
4. 从R1到V4:技术路线的收敛与集成
如果将DeepSeek的研发历程视为一场长跑,那么V4的发布并非一次突如其来的爆发,更像是多条并行已久的技术路线,在两年探索后的一次集中收束与集成。

DeepSeek技术模块演进示意图。图中展示的是论文中可追溯的技术路线和模块关系,不等同于严格的代码复用率。
第一条主线是参数效率。从V2引入MoE(稀疏混合专家架构),到V3延续并强化多Token预测策略,再到V4在MoE框架上继续压低激活参数和推理成本,这条路线始终朝着“用更少的激活参数,完成同等甚至更复杂任务”的方向演进。
第二条主线是长上下文效率。模型需要处理的历史越长,保存中间状态(KV Cache)的成本就越高。可以打一个比方:传统大模型处理长文本就像每次回答问题都要把整本书从头翻一遍。DeepSeek从V2开始就在思考,能否对信息进行分级处理——近处内容保留原文,远处内容做成目录,更远处则压缩为章节摘要?
这个思路从V2的MLA(多头潜在注意力),演进到V3.2的NSA(原生稀疏注意力),最终在V4的Hybrid Attention(混合注意力系统)中得以深化。V4技术报告显示,在处理100万Token的长上下文时,V4-Pro的单Token推理计算量约为V3.2的27%,KV Cache占用仅为后者的10%。
第三条主线是后训练能力整合。R1证明了大规模强化学习能显著激发模型的推理能力。到了V4,思路进一步发展为:让模型在数学、代码等不同领域分别进行高强度专项训练,变得足够强大后,再通过“同策略蒸馏”(OPD)等手法,将各项能力统一整合到一个模型中,从而减少混合训练时可能产生的相互干扰。
此外,Prover系列服务于数学与形式化推理,OCR路线为视觉输入提供了低成本压缩方案,mHC与Muon则是更底层的训练稳定性优化器。每一个关键模块,都先在小规模的专题论文中进行反复试验与验证,随后被集成到旗舰模型中,最终沉淀为整个团队共享的工程实践与知识库。
从这个角度看,V4的重点并非单纯追求参数量的“更大”或榜单分数的“更强”,而是致力于让模型既能进行更深度的思考,也能在更长、更复杂的任务序列中,以显著降低的成本持续、稳定地运行。
这完整地诠释了DeepSeek的技术思路:不盲目堆砌算力硬件,不沉迷于榜单刷分;坚持先小规模验证技术可行性,再进行大规模工程集成;将系统效率视为核心命脉,以此突破算力资源的根本性约束。纵观27篇论文,几乎没有围绕基准测试刷分的工作,全部都在攻克具体的工程瓶颈。
梁文锋对此有过阐述:“如果目标是快速做出应用,沿用Llama架构短平快地推出产品是合理的。但我们的目的地是AGI(通用人工智能),这就需要研究新的模型结构,在有限的资源下实现更强的模型能力。”
值得注意的是,DeepSeek甚至将底层的算子库从主流的CUDA和Triton,替换为北大团队开源的TileLang。V3.1采用的数据压缩格式,也是针对下一代国产芯片的设计而优化的。在追求极致效率的同时,他们还在布局一件更具长远意义的事:构建基于国产生态的大模型研发体系。
5. 人可以挖走,体系带不走
必须承认,AI行业顶尖人才的流动不会停止。高薪争抢顶级研发人员,几乎是这个高速发展领域的常态。DeepSeek未来也难免会继续面对此类挑战。
然而,如果仅以“是否被挖走核心人物”来判断一家技术公司的稳定性,这个评估框架本身可能就存在问题——尤其当这家公司的核心竞争力,并非依附于少数几个明星个体,而是深植于一套独特的研发体系与文化时。
公众热衷于天才叙事,但27篇论文所呈现的数据,讲述了一个更复杂、也更坚实的故事。数据描绘的DeepSeek是:79位横跨多个领域的“多边形战士”,24位参与过10篇以上论文的研发骨干,以及初代团队高达87%的留存率。
更重要的是,在这张合作网络中,存在至少25位关键的“跨界枢纽”,他们将不同研发方向串联在一起。这里没有固定的部门墙,研究员们根据兴趣和亟待解决的问题动态集结。
而过去两年积累下来的技术路线——从MoE到MLA,从GRPO到mHC——每一个模块都经过了前期论文的反复验证与迭代,早已内化为整个团队共享的工程实践和思维框架。
正如梁文锋所言:“我们把价值沉淀在团队上。同事在过程中获得成长,积累大量‘know-how’,形成能够持续创新的组织和文化,这就是我们的护城河。”
这或许才是其背后高达500亿美元估值中,最值得被市场重新审视与定价的核心资产。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
OSA睡眠呼吸机品牌推荐与选型指南
睡眠呼吸暂停(OSA)的核心病理在于睡眠期间上气道肌肉松弛,导致气道反复塌陷、变窄甚至完全闭塞,引发呼吸中断与血氧下降。呼吸机作为核心治疗设备,其原理在于通过面罩输送持续气道正压(CPAP),如同一个“空气支架”般撑开塌陷的呼吸道,从而保障整夜呼吸通畅。 面对市场上众多品牌与型号,如何挑选一台真正有
豆包无法预约餐厅引争议 用户到店碰壁客服回应
近日,“真有人在豆包预约餐厅”的话题登上热搜,引发广泛讨论。事件起因是一位网友分享自身经历:他使用豆包AI助手尝试预约线下餐厅,获得了AI生成的占座、取号乃至预约成功的界面截图。然而,当他满怀期待前往餐厅时,却被商家告知预约并未成功,最终未能就餐。 现场情况一度陷入尴尬。据称,有餐厅店员直接回应:“
星途ET5 OTA升级至OS 3.7.0 智驾座舱体验全面优化
星途ET5车主请注意,您的车辆即将迎来一次重要的智能化升级。EXEED OS 3 7 0版本OTA现已正式推送,本次更新聚焦核心用户体验,共带来11项全新功能与18项深度优化,旨在全方位提升智能驾驶安全性与数字座舱舒适度,让您的爱车常用常新。 在智能驾驶辅助层面,此次升级显著增强了行车主动安全防护体
日本七大车企利润腰斩 铃木总裁称行业寒冬将持续
5月19日,一则重磅消息引发全球汽车行业关注:日本汽车产业正面临近年来最严峻的盈利挑战。在多重不利因素的叠加冲击下,丰田、本田、日产等七大日本主流汽车制造商预计,其2026财年的合并净利润将大幅下滑至3 9万亿日元。这一数字,与2024财年创下的7 54万亿日元历史最高纪录相比,跌幅接近一半,高达4
联想门店免费贴膜服务日开启 手机平板屏幕焕新体验
手机和平板使用一段时间后,屏幕往往是最先显露使用痕迹的部分:指纹反复沾染、细微划痕日渐明显、贴膜边缘也可能逐渐翘起。无论是日常浏览资讯、查阅文件、追剧娱乐还是游戏对战,屏幕的清晰度与完好度都直接影响使用体验与观感舒适度。与其等到膜层磨损、屏幕划伤后才考虑更换,不如趁此机会,通过想帮帮服务日为你的常用
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

