中国为何仅有一个DeepSeek深度求索
DeepSeek风暴过后,中国大模型创业圈的气氛变得有些微妙。最近和几位业内人士聊了聊,发现圈内正呈现出一种“冰火两重天”的景象。
一边是热血沸腾的阵营,主要是那些积极拥抱DeepSeek生态的算力厂商、模型服务商,以及过去没能力参与“军备竞赛”、如今靠开源受益的团队。另一边则像是被霜打过的茄子——以其他几家知名大模型创业公司(俗称“六小虎”)和投资了它们的VC机构为代表,气氛明显凝重。
听说,有些在过去两年重金押注头部大模型公司的投资团队,已经开始内部复盘,甚至面临灵魂拷问。问题无非集中在几个方面:
为什么DeepSeek能用相对低的成本训练出如此强大的模型,而融了几十亿美金的公司却做不到?
DeepSeek这次出圈,本质是不是因为技术足够创新、足够硬核?那当初投资某些技术团队薄弱的公司,逻辑何在?
某些公司也拥有顶尖人才和训练基座模型的经验,为什么没能成为DeepSeek?它们的高估值究竟靠什么支撑?
DeepSeek横空出世后,“六小虎”还有谁值得继续投?上市前景如何?如果没有,接下来的退出路径该怎么走?
……
“为什么没能成为DeepSeek”,以及“为什么中国只有一个DeepSeek”,这两个问题几乎成了春节以来所有大模型从业者和投资人反复追问的命题。它们精准地概括了当前行业对创新能力的集体焦虑。也只有认真回答这两个问题,才能触及更核心的那个:如何才能成为下一个DeepSeek?
春节期间,我们曾从中美AI创新对比的宏观视角探讨过“DeepSeek现象”,认为这或许是中国AI崛起的开始。今天,我们不妨结合过去四年国内大模型的发展轨迹,再往下深挖一层:
中国真的缺少DeepSeek这样的技术理想主义者吗?
如果不缺,这样的团队是否得到了足够的社会关注和系统性支持?如果没有,问题又出在哪里?
作为一个从2020年GPT-3爆发就持续跟踪报道的行业观察者,本文无意给出一个宏大的终极答案,只希望能从第三方视角,梳理一些或许与之相关的事实与观点。
1、系统性错位
时间拉回2023年之前。那时中国称得上大模型公司的,满打满算只有四家:智谱、面壁、深言和聆心(后被智谱收购),而且清一色出自清华。2023年之后,创业公司数量猛增到十几家。直接诱因当然是Llama开源降低了门槛,但更深层的原因在于,当时行业形成了一种集体共识:大模型技术虽有门槛,但并非不可逾越;尤其在开源基础上,技术难度进一步降低,“技术无法构成商业壁垒”的说法开始流行。
在这种共识的笼罩下,复盘2023年ChatGPT引爆市场后国内大模型的创业格局,就不难理解如今中场出现的畸形现象。
首先,当市场对技术创新的敬畏心减弱,2023年那波浪潮中,最早的一批技术探路者里,只有智谱一家成了资本的宠儿,最早突破200亿估值大关,跻身第一梯队。而同样出身清华自然语言处理实验室的另外两家——面壁和深言,在资本市场获得的声音远不如后来的新势力。
尤其是面壁智能。这家公司最早提出要做“平民版大模型”,其技术愿景和创新方向与后来的DeepSeek高度相似,甚至成立时间更早。但直到2024年底完成一笔3亿元融资后,其估值也才不到35亿元,与第一梯队200亿的门槛相去甚远。
同是清华系出身,同样具备技术先发优势和优秀年轻人才,智谱和面壁的命运为何如此不同?根据过去两年与超过50位大模型投资人的交流,原因有几方面。
其一,当时清华学术圈对教授创业持保留态度,在追逐基座模型的赛道上,资源往往只集中押注一家。其二,智谱早期的愿景“对标OpenAI”更直白,VC一听就懂;而面壁从一开始就强调底层模型训练效率优化,在热钱最多的2023年,一度被许多投资人视为类似潞晨、硅基那样的“AI基础设施”公司,想象空间似乎小了。
融资不顺,直接影响了面壁在基座大模型上的投入。它无法像DeepSeek那样,通过训练V3这样的巨型模型来直观验证和展示其高效训练技术的价值。于是,2024年面壁转向了端侧小模型路线。然而,小模型对“高效训练”技术优势的证明力,远不如一个千亿参数基座模型来得震撼。
事实上,早在2022、2023年融资时,面壁就高举“高效训练”的旗帜,却在VC那里几乎吃遍了闭门羹。
其次,承接上述对技术缺乏敬畏的大环境,2023年浪潮袭来时,不少国内的科技VC并没有沉下心去钻研AGI这项技术本身。为了快速“上牌桌”,资金大量流向了“有成功经验的连续创业者”,哪怕这些团队此前并无大模型研发经验。
最典型的例子,莫过于王慧文的光年之外和王小川的百川智能。
当前估值超过200亿的大模型公司中,只有智谱的唐杰、月之暗面的杨植麟等极少数人,是从2020年大模型尚未出圈时就开始了技术探索。而百川智能、MiniMax、阶跃星辰等团队的全面投入,大多是在2023年之后。
当然,这并非否定后来者的能力。DeepSeek的研发团队同样是从零开始,苦读论文、死磕实验。没有任何证据表明,一个2023年才入局的团队无法通过努力学习来补足技术短板。但观察过去两年的发展,百川智能在基座模型上的迭代并不频繁,重心似乎转向了医疗等行业大模型。
由于不涉足视频等耗资巨大的模型训练,百川的研发成本相对较低,现金流也更健康——但这更多是公司自身的战略选择,对整个大模型基础技术的进步,贡献有限。
于是,一个令人遗憾的局面出现了:在资源有限的情况下,大量资本涌向了当时看似“背景光鲜”但技术积累未必深厚的团队,而一些真正有技术追求和能力的团队,却拿不到足够的资源。这种资金与人才的系统性错位,注定难以结出理想的果实。
如果AGI技术真的已无上升空间,各家技术壁垒已经拉平,那么互联网时代拼资源、拼资本的老打法或许还能奏效。但对技术怀有敬畏之心的创业者心里清楚,现有的大模型底层算法和架构,在训练和推理上仍存在诸多不足,AGI面前还有大量具体且高难度的问题亟待攻克。
也就是说,底层技术的持续创新能力,依然是大模型公司的核心护城河。纯粹拼资源的互联网方法论,在当前的AI硬科技攻坚阶段,可能并不完全适用。遗憾的是,这些话在2023、2024年那个充斥着“Club Deal”等玩法的狂热投资期,很难得到大多数VC的认同。
回顾过去两年,一个不愿学习技术的投资人,其产生的负面影响,有时可能比一个不愿学习技术的研发人员还要大。
泡沫终会消退。潮水退去之后,谁在裸泳,一目了然。
2、AGI军团,可遇不可求
市场对技术的短视,带来的另一个连锁反应是:为了迎合市场(当然,也有突破大厂围剿的生存压力),过去两年,许多大模型创业公司的目光从长期的AGI愿景,转向了短期的商业收入和产品打磨。
这种战略转变,同样根植于前述那个“技术已无创新”的行业误判。坚定追求AGI的创业者,必须同时在商业和技术两条战线上作战。而对AGI产生怀疑,或被市场声音左右的团队,则可能选择放弃预训练,全面转向C端应用,或者干脆只基于开源模型做行业微调。
从GPT-3到ChatGPT问世,用了两年半。但国内市场却似乎形成了一种“共识”:中国的大模型从基座到商业化,两年足矣。尽管有些公司宣称“L2”(应用)与“L4”(AGI)两步走,但在人才和研究资源的实际投入上,几乎没有一家能像DeepSeek那样,对AGI保持如此纯粹和极致的专注。
2023年上半年融资战打响时,业内就有分析指出,中国VC经过上一代AI公司的“洗礼”,对大模型公司的商业化耐心,已从5年、8年缩短到了3年以内。这或许是中国大模型创业者面临的普遍困境。
众所周知,DeepSeek能心无旁骛地专注AGI研究,很大程度上得益于梁文锋个人及幻方量化原有的资金储备,使其无需对外融资。“自己有钱,所以不用听外界的,想干什么就干什么。”——这也是许多大模型公司对DeepSeek最羡慕的一点。
最近,曾经公开质疑AGI的朱啸虎改口称,因为DeepSeek的出现,愿意投资AGI公司了。这可以说是DeepSeek用硬核技术实力改变了部分投资人的看法。但一个更残酷的现实可能是:大量有真正创新能力的团队,或许早已因为融不到钱,倒在了黎明之前。
“商业化思维”不仅影响着投资机构,也渗透到了研发人才的选择中。
根据猎头反馈,2024年,中国对AI人才“氪金”力度最大的公司,无疑是字节跳动。大厂与创业公司的分野已然形成,人才从创业团队流向大厂,成为过去一年的普遍现象。例如,据了解,DeepSeek为推进AGI而物色的多位NLP、多模态与强化学习方向的优秀人才,最终就在DeepSeek和字节跳动之间,选择了后者。
据早期为DeepSeek服务的猎头透露,DeepSeek也曾希望从谷歌、Meta、OpenAI等海外顶尖团队挖角,但进展并不顺利,最终只能退而求其次,选择自己培养。
AGI的投入,既要有钱,也要有人,而且必须是一群坚定的技术理想主义者,辅以优秀的组织文化。DeepSeek的成功或许难以复制,但从V2、V3到R1、R1-Zero,其一系列技术成果,已然体现了其在资金、人才/理想、组织文化上的综合优势。
在DeepSeek之前,“北九坤、南幻方”早已在金融量化领域声名显赫。量化行业对技术人才的要求极高,基本以顶尖高校、信息学竞赛金牌选手为基准,团队规模通常不大,但人均能力超强。据了解,2024年上半年,DeepSeek的团队规模也只有40多人,且多数是原幻方的顶尖技术高手。
延续幻方的风格,DeepSeek的招聘门槛一直极高。例如,他们从2024年年中就开始物色多模态与强化学习方向的技术大牛,但招了大半年,相关岗位依然空缺,宁缺毋滥。R1爆火后,简历投递量暴增,但据知情人士称,“合适的人选并不多”。
DeepSeek内部的组织文化也非常扁平。据了解,无论北京还是杭州,都只有一个老板:创始人梁文锋。“梁文锋以下,基本全是‘打工人’。”
此外,梁文锋的个人风格十分鲜明:有极强的技术信仰,对AGI充满好奇心与求知欲,并且异常刻苦。接近他的人形容,梁文锋“说话非常非常慢,每一句话都要思考很久才表达出来,而且表达极其简洁。虽然简洁,但经常一针见血。”
这种团队文化,与宇树科技、Momenta等公司有相似之处:一号位都是深度技术发烧友,对技术怀有天然的敬畏与好奇;同时在管理上集权风格明显,文化扁平,因此在技术攻坚遇到困难时,能够自上而下高效协调资源,实现快速上传下达。
同时,宇树和DeepSeek在招人时都有一套自己的独特标准,与市面上千篇一律的面试套路很不一样。有兴趣的读者可以深入了解。
DeepSeek的梁文锋很早就开始探索如何用更低成本训练更强模型,那时行业还普遍看不懂。同样,宇树的王兴兴也是在大家还看不懂机器狗时,就埋头研发四足机器人;Momenta的曹旭东也是在行业普遍沉醉于L4自动驾驶时,就坚持L2与L4两条腿走路。
敢于与主流趋势“对着干”的创业团队,需要一种强大的叛逆精神。在与多位投资人的交流中,这种“叛逆”有时被简单地归类为“年轻气盛”。但究其根本,叛逆的底气终究来源于团队对所要解决的社会问题的深刻认知、独立判断,以及坚实的技术自信——即坚信自己选择的方向代表未来,并能创造巨大价值。
3、创新的品味
V2掀起价格战后,梁文锋在接受《暗涌》访谈时,对这个技术成果的评价是:“在美国每天发生的大量创新里,这是非常普通的一个。”
V3与R1之后,梁文锋暂时还未公开发声。但对于DeepSeek和梁文锋而言,在完全实现AGI之前,或许V3与R1的创新,也只是“非常普通的一个”。这并非否定两者的突破性,而是想强调,高追求的团队往往习惯将100分的事情说成80分,并永远盯着那20分的附加题。
R1发布后,业内一位资深强化学习学者分析认为:“用纯强化学习算法代替‘强化学习+监督微调’的范式后,我觉得AGI的实现最晚三年。”
Sam Altman说2025年AI就会超越人类,马斯克也说AGI最晚2026年就能实现。关于AGI时间点的预言众说纷纭,我们很难判断具体哪一刻会到来,但一个大趋势已然清晰可感。
趋势既明,而DeepSeek的成功至少让行业意识到两个事实:第一,AGI的技术远未到天花板;第二,中国的科技团队完全有能力做出引领世界的AGI创新。与其沉浸于DeepSeek的胜利,不如思考接下来如何推动中国AGI的整体发展,这才是更重要的事。
过去半个月,DeepSeek风暴让大厂、创业公司、算力厂商、投资人对AGI发展的认知都产生了新变化。一些曾被忽视的、大象般重要的问题重新被重视,一些陈旧看法被碘伏。但一个共识正在形成:在现阶段,实现AGI仍然需要理想主义。
相比猜测OpenAI或DeepSeek下一步要做什么,推断AGI还需要解决哪些关键技术问题更为重要。换言之,创新比模仿更重要。
事实上,根据过去一年的访谈,除了DeepSeek,国内仍有一批AI人才在坚持创新,不断提出新思路来解决悬而未决的难题。这里仅举几例:
香港大学计算与数据科学研究院院长马毅教授在过去两年一直强调,当前依靠高算力堆砌训练出的大模型,拥有的是“知识”而非“智能”。区别于深度学习的黑盒特性,马毅团队一直致力于研究可解释、可控制的人工智能算法与框架(即“白盒理论”)。
在CNCC 2024上,智谱AI的唐杰提到了多模态技术的下一步发展。从2021年开始,智谱团队就探索多模态大模型。据透露,在早期探索中,他们遇到过类似问题:当文本、图像、语音、视频等多模态数据同时灌入模型训练时,一个模态的数据可能会削弱另一个模态的知识或能力。多模态虽是趋势,但如何优化跨模态数据对齐、收集高质量数据、增强模型的常识与推理能力等,仍有巨大的研究空间。
而根据2024年3月与面壁团队多位创始成员的交流,当前主流的大模型架构仍难以很好解决几个关键问题,从而阻碍其靠近AGI,例如经验学习与空间记忆。人类可以通过反复学习一件事变得更熟练,或快速熟悉新环境并将认知迁移过去。这些问题,是当前Transformer架构不太擅长表达的。
随着具身智能的发展,未来的AGI天然会分为云端AGI和端侧AGI。端侧AGI指的是能自然感知环境、进行高阶推理,并基于推理做出复杂多步决策的模型。热门的“具身大小脑”架构正是沿此趋势发展,而这一方向仍有大量问题待解。解决这些问题,除了资源,更需要强大的技术实力和清晰的技术愿景。
OpenAI的o1模型发布后,大模型领域的许多研究开始向推理方向倾斜。但据小道消息,谷歌的Gemini团队近日已完成新一代基础模型,并对小部分用户开放测试。
尽管2023年谷歌在舆论上被OpenAI压制,但如果回顾2020年6月到2022年期间谷歌的大模型技术路径,就会发现其打法是从底层算力、架构到上层算法,自下而上构建完整体系。这或许也是Gemini能够后发制人的重要原因。
DeepSeek的路径与之相似。根据其技术披露,其研究大模型的路径同样是从底层万卡集群、HAI框架向上贯穿,构建环环相扣的技术体系。
对权威保持警惕,永远从问题本质出发倒推解决方案,坚定地走创新之路,才能真正引领潮流。短期的快钱或许会流向幸运儿,但长期的资源,终将流向那些最擅长将资源转化为顶尖成果的团队。
希望到2025年,中国不再只有一个DeepSeek。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
百川智能联合创始人谢剑离职内幕与未来动向
百川智能联合创始人谢剑即将离职,原因与去向未明。谢剑拥有深厚AI研发管理经验,曾参与百度核心业务,2023年与王小川共同创立百川智能并取得多项技术成果。近期该公司高管持续动荡,商业化、医疗、金融业务负责人及联合创始人等相继离开,创始团队仅剩两人。密集人事变动或预示行业面临。
DeepSeek强化学习与通用人工智能发展路径深度解析
DeepSeek通过大规模强化学习替代监督微调,显著提升推理能力。研究证实从指令微调到强化学习的训练路径有效,并在隐式推理、符号神经融合、混合智能体及数学推理等领域取得进展。
百度云企业级大模型应用落地产业实践与对话
AI大模型正从技术探索转向产业落地。百度以文心大模型为基础,结合算力平台,推动其在金融、医疗等领域的应用。智能客服、数字人定制、编程工具等产品,分别助力企业降本增效、满足场景需求并提升开发效率。统一的基础设施进一步降低了应用门槛与复杂度。
夸克AI务实进阶:从浪潮到落地应用之路
夸克从搜索转向AI助理更易被接受,因其在用户熟悉路径中嵌入能力,顺应使用习惯。产品注重设计:页面纯净、交互流畅,如模拟问诊引导描述病情。功能从场景出发,力求一步到位。近期PC端升级为“系统级全场景AI”,渗透数字生活,以精准答案回应传统搜索痛点。行业竞争显示,卓越体验需技术通过产品。
AI陪伴赛道能否复制泡泡玛特的商业奇迹
AI正从工具转向情感陪伴,核心从解决问题变为共度时光,以满足现代人情感需求。这需平衡技术可控性、沉浸感与人设鲜活度,并通过角色定义与个性化互动建立连接。硬件凭借“在场感”占优,软件则迭代更快。市场出海取决于定位与资源。尽管挑战众多,该领域已展现出创造深度情感连接的潜力。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

