DeepSeek团队27篇论文揭秘:揭秘AI多面手背后的技术实力
79位跨方向骨干、87%的初代留存率,以及一套让年轻人围绕问题自由组队的机制——这些数字勾勒出DeepSeek研发团队的另一面。
过去一年,关于DeepSeek的人才流动消息从未间断。从早期的罗福莉离职,到初代大模型作者王炳宣、多模态骨干阮翀、R1核心作者郭达雅相继被其他公司高薪挖走。核心作者接连离开,一个自然的问题是:DeepSeek的技术壁垒会不会因此松动?
要回答这个问题,或许需要换一个视角。我们决定从他们公开发布的技术成果入手,进行一次“数据侦探”式的观察。
通过梳理DeepSeek近两年发布的27篇核心论文和技术报告,逐篇拆解署名作者,最终得到一份包含328人的研发作者池。分析这份名单,可以发现几个有趣的特点:团队内部没有明显的“部门墙”,328位作者中有168人形成了稳定、重复的合作关系;研发架构呈现“兵团+小组”模式,一个基模大兵团与多支精锐特种小队高效配合;团队背景高度集中,Top25研发作者中近四成来自北京大学;更重要的是,研发活动高度跨界,超半数作者涉足多个方向,其中横跨3个及以上技术方向的“多边形战士”多达79人。
这些研究员并非固定在某个部门,而是根据兴趣和问题动态集结。他们的论文主题也颇具特色,很少围绕榜单刷分,更多聚焦于底层工程瓶颈:如何更好地利用算力,处理长上下文时如何降低缓存成本,模型规模扩大后如何保持训练稳定。
1. 被挖走的那几位,到底排第几?
DeepSeek的27篇论文,主要覆盖基座模型、系统/效率、数学/证明、多模态、代码、OCR、推理/强化学习这七个技术方向。
要评估一位研究员在合作网络中的参与度,可以从两个维度看:参与论文的数量,以及覆盖技术方向的广度。需要说明的是,这两个指标仅来自论文署名统计,不代表具体的贡献大小或组织层级。我们将同时覆盖3个及以上技术方向的研发作者,称为“多边形战士”。
这个数字是多少?79人。
那么,那些在传闻中被重金争抢的名字,在这个网络里处于什么位置?
阮翀确实是参与度最高的一位——覆盖了18篇论文、6个方向,从MoE架构到数学证明再到多模态,几乎无处不在。他本硕均毕业于北京大学,早年从事NLP研发,2024年加入DeepSeek,参与了DeepSeek-VL、V3和R1等工作,是VL2的通讯作者。他于今年1月加入元戎启行并担任首席科学家。
郭达雅参与了11篇论文,覆盖4个方向,在高频研发作者中并列第12位。王炳宣参与了10篇论文,覆盖5个方向,并列第17位。
毫无疑问,他们都是核心人员,他们的离开当然是损失。但关键问题在于:DeepSeek还有多少个“郭达雅”和“王炳宣”?
数据显示,像他们这样参与10篇以上论文的研发作者共有24位。即便离开了三位,后面还有21位参与强度相当的研究员。如果把DeepSeek看作一支球队,虽然被挖走了几位核心球员,但这支球队的人才储备厚度,可能比外界想象的要深。
更值得关注的是“跨界”的普遍性。328位研发作者中,只在1个方向出现过的有158人。剩下的170人,至少跨过两个方向。其中,横跨3个及以上方向的,正是那79位“多边形战士”。
举一个极端的例子,李宇琨参与了14篇论文,横跨全部7个方向,从初代DeepSeek LLM一路到最新的V4,谷歌学术引用量超过两万。他是DeepSeek的“首位员工”,2024年从字节跳动搜索团队离职后加入,负责预训练数据的相关工作。
这也印证了一个常被外界忽略的事实:在AI行业,人才一直是多向流动的,DeepSeek同样也在从别处吸引顶尖人才。
2. 多边形战士是如何长成的?
外界总在讨论DeepSeek还有没有天才。其实,每家AI公司都有明星研究员。DeepSeek的不同之处,在于它能让一批很年轻的研究员,迅速在多个技术方向之间自由组队、探索,并获得资源支持,整个过程较少受到传统组织架构的约束。
辛华剑在DeepSeek实习期间,主导开发了专注于数学证明的DeepSeek-Prover系列模型,他也是该系列V1.5论文的第一作者。他曾透露,Prover项目在内部最初只是一个独立探索,初衷是验证能否通过形式化系统构造出更严格的推理数据。
这与大多数公司的流程截然不同。许多大厂会先设立部门、确定KPI、分配预算,再启动项目。而DeepSeek的顺序往往是反过来的:先有人觉得某个问题值得深入研究,再围绕这个问题去寻找志同道合的伙伴和资源。
在论文合作网络里,这种“动态组队”的方式留下了清晰的痕迹。根据署名关系进行聚类,可以看到4个相对集中的协作小组:基模大兵团、系统效率、数学与推理、多模态,以及另外3个更小的协作簇。需要说明的是,这些“组”并不对应DeepSeek真实的部门划分,只反映了谁更经常与谁合作。
有趣的是,这个结构恰好与梁文锋描述的组织方式高度吻合。梁文锋曾表示:“我们一般不前置分工,而是自然分工。每个人有自己独特的成长经历,都是自带想法的,不需要push他。当一个idea显示出潜力,我们也会自上而下地去调配资源。”
据晚点LatePost报道,DeepSeek的组织层级很薄,研究团队大体只有梁文锋和研究员两个层级。“有时开始一个新方向,就是因为有三五个人都觉得一个idea不错,然后就一起做了。”梁文锋的角色更接近一位导师:组织研发、协调资源,并在共同成果上作为通讯作者署名。
这套组织方式还有一个在AI行业里极为罕见的特征:不鼓励加班。平日多数成员在晚上6到7点离开公司,不打卡,也没有明确的绩效考核。梁文锋的逻辑很直接:“一个人每天能高质量工作的时间很难超过6到8小时。加班疲劳下的昏庸判断反而会浪费宝贵的算力资源,得不偿失。”
梳理发现,DeepSeek的论文作者中,多为2024年前后毕业的清华、北大、中科大等高校的本硕博学生。排名前25的高频研发作者里,近四成毕业于北大。但这不应被简单理解为“名校人海战术”。据了解,不少AI实验室的招聘取向都在发生变化,在校博士比拥有多年大厂经验的“老兵”更受青睐。
一位AI公司董事长曾分享,自从ChatGPT出现后,他开始挤出午饭时间面试有潜力的在读博士生,再小的项目都会聊上至少一小时,从基础公式推导问到工程细节把控,以筛选出真正的创新者。他指出,大多数人都是在2024年才开始转向GPT相关的架构研究,相当于站在了同一起跑线上。“这一时间点后毕业的博士,还未被行业惯性束缚,常能带来意想不到的突破。”
梁文锋自己也说过,做出DeepSeek V2的,“都是一些Top高校的应届毕业生、没毕业的博四博五实习生,还有一些毕业才几年的年轻人。”
那么,DeepSeek团队的稳定性究竟如何?交叉比对论文署名可以发现:初代模型论文(2024年1月)的86位作者中,到V4(2026年4月)仍然出现在署名里的有75人。两年半时间过去,初代团队近九成成员仍在。
再看V4的Research & Engineering名单,269名研发工程作者中,论文标注已离职者为10人,占比约3.7%。作为对比,据Z Finance报道,截至今年4月,过去一年约有60至70名字节跳动Seed团队的成员流向了各大模型公司。
这些数字并不等同于DeepSeek真实的整体流失率,但它们至少说明,其核心研发网络并没有因为几位明星研究员的出走而散架。
3. 两年27篇论文,死磕系统效率
如果只看外界的声量,V3、V4这些基座模型技术报告无疑最引人注目。
但统计论文主题分布,结果却有些反直觉:27篇论文中数量最多的,并非基座模型,而是系统/效率类论文,共有7篇,超过了基座模型(5篇)和数学(5篇)。
这7篇论文分别是:DeepSeekMoE、ESFT、NSA、Insights into V3、mHC、Conditional Memory和DualPath。值得注意的是,没有一篇是在单纯地刷榜(benchmark),它们全部在解决同一类底层问题:如何用更少的算力,做更多的事。
逐一拆解这些论文,可以看到三类核心挑战:
第一类,如何更高效地利用算力。例如ESFT关注如何更经济地完成模型微调,而Insights into V3则复盘了如何在大规模集群训练中提高硬件利用率和稳定性。
第二类,处理长上下文时如何降低缓存成本。当模型需要处理更长文本,或执行复杂Agent任务时,注意力计算和KV Cache(模型保存历史上下文的中间记忆)的成本会急剧上升。NSA、Conditional Memory和DualPath这几篇论文,都在尝试压缩模型“记住历史”所需付出的代价。
第三类,模型规模变大后如何训练得更稳定。DeepSeekMoE探索的是当参数规模膨胀时,如何只激活更少的专家网络;mHC则试图增强深层网络中的信号传播,以降低超大规模模型训练时的不稳定性。
梁文锋曾提出一个假设:“能不能用现存的一部分算力,就实现现在所有的智能?”这7篇系统相关的论文,可以看作DeepSeek团队为回答这个问题所提交的阶段性答卷。
另一个细节是,27篇论文的作者规模呈现出“大小搭配”的节奏。基座模型报告往往是动辄200到300人的“全员参与”,而系统、数学、多模态方向的论文,通常只有6到20人的精干团队。
前者像大兵团作战,后者则像特种小队的单点突破。先用小团队低成本验证技术路径,跑通后再集成到下一代旗舰模型中。
4. 从R1到V4,技术底牌是如何攒出来的?
如果把DeepSeek的研发历程看作一场长跑,那么V4的发布并非一次突然的爆发,更像是几条并行已久的技术路线,在两年后的一次集中收束与集成。
第一条主线是参数效率。从V2引入MoE(稀疏混合专家架构),到V3延续并强化多Token预测策略,再到V4在MoE框架上继续压低激活参数和推理成本。这条路线始终朝着“激活更少参数、完成同样任务”的方向演进。
第二条主线是长上下文效率。模型需要处理的历史上下文越长,需要保存的中间记忆(KV Cache)就越多,成本也越高。可以打一个比方:传统大模型有点像把整本书摊开,每回答一个问题都要从头翻一遍。DeepSeek从V2开始就在思考,能否对信息进行分级处理?比如把近处内容保留原文、远处内容做成目录、更远处内容压缩成章节摘要?
这个想法从V2的MLA(多头潜在注意力),到V3.2的NSA(原生稀疏注意力),一直演化到V4的Hybrid Attention(混合注意力系统)。V4技术报告显示,在100万Token的长上下文场景下,V4-Pro的单Token推理计算量约为V3.2的27%,KV Cache占用约为其10%。
第三条主线是后训练能力的整合。R1证明了大规模强化学习可以显著激发模型的推理能力。到了V4,思路进一步延伸:在数学、代码等领域分别进行强化训练,再通过“毕业典礼”——即同策略蒸馏(OPD)——将能力合并进一个统一的模型,从而减少不同能力在混合训练时可能产生的相互干扰。
此外,Prover系列服务于数学与形式化推理,OCR路线为视觉输入压缩提供低成本方案,mHC与Muon则是更底层的训练稳定性优化器。每一个关键模块都先在小规模的专题论文中经过反复试验和验证,随后被集成到旗舰模型中,最终沉淀为整个团队共享的工程实践。
从这个角度看,V4的重点或许不在于变得“更大”或“更强”,而在于让模型不仅能“想得更深”,也能在更长、更复杂的任务中,以更低的成本持续、稳定地运行。
纵观这27篇论文,一个清晰的思路浮现出来:不盲目堆砌算力,不沉迷榜单刷分;先以小团队验证技术可行性,再集成到主流产品;死磕系统效率,力求突破现有算力限制。这些论文里几乎没有围绕benchmark刷分的工作,全都在瞄准具体的工程瓶颈下功夫。
梁文锋对此有过阐述:“如果目标是做应用,沿用Llama结构短平快上产品也合理。但我们的目的地是AGI,这就需要研究新的模型结构,在有限资源下实现更强的模型能力。”
值得注意的是,DeepSeek甚至将底层算子库从主流的CUDA和Triton,换成了北京大学团队开源的TileLang。V3.1采用的数据压缩格式,也是针对下一代国产芯片设计的。在追求极致效率的同时,他们还在布局一件更长远的事:基于国产生态来构建大模型的基础设施。
5. 人可以挖走,体系带不走
人才流动在AI行业不会停止。顶尖研发人员被高薪争抢,几乎是这个行业的常态。DeepSeek未来也难免会继续经历这样的人才竞争。
然而,如果仅用“是否被挖角”来判断一家技术公司的稳定性,这个评估框架本身可能就存在问题——尤其是当这家公司的核心竞争力,并不依附于少数几个明星个体的时候。
大众热衷于传播天才的故事,但27篇论文的数据讲述了一个更复杂、也更难被简单概括的故事。数据呈现的DeepSeek是:79位横跨多个方向的“多边形战士”,24位参与10篇以上论文的研发骨干,以及初代成员高达87%的留存率。
更重要的是,这张合作网络中存在25位关键的“跨界枢纽”,他们将不同方向的研发串联在一起。这里没有固定的部门墙,研究员们根据兴趣和问题动态集结成队。
而那两年多积累下来的技术路线——从MoE到MLA,从GRPO到mHC——每一个模块都经过前序论文的反复验证与打磨,早已内化在整个团队的工程实践和知识体系之中。
梁文锋曾这样总结:“我们把价值沉淀在团队上,同事在过程中得到成长,积累很多know-how,形成可以创新的组织和文化,就是我们的护城河。”
这或许才是其500亿美元估值背后,最值得被市场重新审视和定价的东西。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
智谱清影数字人支持英文播报功能吗
智谱清影数字人英文播报问题可能因未启用英文语音引擎或文本识别错误导致。建议检查产品界面是否有英文语音选项,若无则可通过智谱清言App内置TTS处理英文文本,或调用官方API的英文TTS服务。注意确保文本格式规范,也可使用专用的智影数字人播报App满足专业需求。
xAI推出Grok Skills功能 实现跨对话持久记忆
xAI为Grok助手推出 "Skills "功能,赋予其跨对话持久记忆能力。用户只需一次传授任务方法,Grok即可在后续所有对话中记住并自动调用个人偏好与工作流程,显著提升效率。这标志着Grok从单次会话问答机器人向可配置自动化工作空间演进,深化人机协作实用性。
海螺AI设计NPS问卷题目有效性评估与优化指南
NPS问卷有效性不足常因题目结构缺乏逻辑或评分锚点不一致。提升有效性需核查五点:确保核心问题严格遵循NPS标准量表定义;开放追问需按用户评分分群动态触发;具体维度评价应采用独立五级李克特量表;通过已知用户行为数据反向测试题目敏感度;统一问卷内术语表述以避免认知混淆。
Recraft AI免费注册教程 新用户详细使用指南
注册RecraftAI免费账户需访问官网并点击注册按钮。推荐使用邮箱注册,填写邮箱、设置密码并同意协议后,需查收验证邮件完成激活。也可选择Google账户快捷登录。成功注册后即可使用免费计划的基础功能。
谷歌与黑石联手成立AI云服务新公司
谷歌与黑石集团计划合资成立AI云计算公司,黑石出资50亿美元控股,谷歌提供TPU芯片及技术支持。双方结合资本与尖端技术,目标2027年建成500兆瓦算力设施。此举有望推动AI云服务市场多元化,为开发者提供更多选择并降低创新门槛。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

