DeepSeek-V4发布，黄仁勋的担忧成真了

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

DeepSeek-V4发布，黄仁勋的担忧成真了

热心网友时间：2026-04-25

转载

DeepSeek-V4都做了什么

简单来说，DeepSeek-V4的核心成就是用极致的工程效率，重新定义了“顶级大模型”的成本门槛。它没有走盲目堆砌参数的老路，而是打出一套组合拳，让高性能AI变得既强大又经济。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

先看参数规模：旗舰版DeepSeek-v4-pro总参数达到1.6万亿，但每次推理仅激活490亿参数；轻量版DeepSeek-v4-flash则控制在2840亿总参数、130亿激活规模。

● 同一时期国内主流大模型参数对比。制图：镜相工作室

两个版本背后的逻辑一脉相承：通过MoE（混合专家）架构，在不大幅增加实际算力消耗的前提下，扩展模型的“知识容量”。关键在于工程优化——让模型在推理时只调用最相关的“专家”，从而实现低成本下的高水准表现。这种“用结构换效率”的思路在V2时期已见端倪，到了V4则被运用得更加纯熟。

在上下文长度上，DeepSeek直接宣布100万tokens成为“所有官方服务的标配”。这意味着，用户通过其App、网站或API，默认就能一次性上传整本《红楼梦》、一个完整的代码项目库，或一份详尽的年度报告，让AI从头到尾处理。这解决了行业长期存在的一个矛盾：上下文越长，成本通常越高。

传统AI模型处理长文本时，需要记住并计算每一个字与全文所有字的关联，效率低下且成本高昂。V4没有硬解这个数学难题，而是引入了DSA稀疏注意力（DeepSeek Sparse Attention）机制。你可以把它理解为“打包摘要”和“抓取重点”的能力，从而大幅降低了长文处理的记忆与计算负担。百万字的长文档，在AI的“工作内存”（显存）里被压缩成几百个高度凝练的要点，体积和压力自然骤减。如果这一机制能在真实场景中稳定运行，长上下文能力将从高端模型的“奢侈品”，逐渐变为应用层的“标准配置”。

能力层面也有显著提升：

在Agent能力上，V4-Pro已跻身开源模型的第一梯队。在Agentic Coding评测中，其表现达到当前开源最优水平，并已在内部作为工程团队的编码工具投入使用。评测中一个值得玩味的细节是：其输出质量已经接近美国AI公司Anthropic高端模型在常规非思考模式下的水准，不过在更复杂的思考模式上，差距依然存在。

推理能力方面，在数学、STEM及竞赛级代码任务中，V4-Pro的表现超越了现有公开评测中的其他开源模型，并逐步逼近顶级闭源产品。

世界知识方面，V4-Pro大幅领先于其他开源模型，但与谷歌的顶尖闭源模型Gemini-Pro-3.1相比，仍有差距。

这些能力并非孤立存在，而是围绕具体应用场景深度整合。V4针对Claude Code、OpenClaw、CodeBuddy等主流Agent工具进行了专门适配，在代码生成与文档处理等任务上优化显著。可以看出，它的目标并非成为面面俱到的“全能选手”，而是更直接地嵌入开发流程，承担实际的生产任务。

系统层面则藏着DeepSeek能够实现低价的“秘密武器”。

技术报告显示，DeepSeek在系统底层部署了一套“细粒度专家并行（EP）”方案。通俗地讲，就是优化了AI模型在芯片上的“任务调度算法”，让计算和通信能像流水线一样高效重叠进行。

这套方案已在英伟达GPU与华&为昇腾NPU两套体系上完成验证，推理速度提升了约1.5到2倍。这意味着同样的芯片，能承载更多的用户请求，单位成本自然就降下来了。

不过，从当前开源的实现版本来看，最成熟、最稳定的版本仍然基于CUDA体系。这传递出一个信号：核心优化已具备跨平台潜力，但工程上的最优路径，短期内依然集中在英伟达的生态之内。这种状态，也为后续向其他平台的迁移与扩展，预留了充足的空间。

定价策略，依旧是DeepSeek让同行倍感压力的地方。在缓存命中条件下，Pro版本输入价格低至1元/百万token，Flash版本更是达到0.2元；Pro版本输出价格为24元/百万tokens，Flash版本为2元/百万tokens，均显著低于市场同类水平。

然而，在DeepSeek-V4的定价表格下方，一行灰色小字尤为关键：受限于高端算力，目前Pro的服务吞吐十分有限，预计下半年昇腾950超节点批量上市后，Pro的价格会大幅下调。

当价格调整开始“锚定”某一类特定算力集群的部署进度时，这通常意味着该类算力已在公司的整体体系中占据了举足轻重的地位，至少在关键路径上具备了决定性影响。

对于DeepSeek而言，这更像是一种间接的披露——其推理或服务体系，正越来越多地构建在国产算力基础之上。而算力供给端的任何变化，已经能够直接传导至最终的产品定价层。

同时，这一逻辑还隐含着一层更深的变化——模型价格的决定因素，开始从单纯的算法效率，转向由底层算力结构共同定义。随着昇腾超节点进入规模化部署阶段，单位算力成本的下降所带来的，不仅是利润空间的释放，更是重塑整个价格体系的能力。正是在这个意义上，DeepSeek的低价策略，正在从由工程优化驱动，逐步过渡到由算力体系驱动。

沉默下的野心和无奈

从内外部环境综合判断，让新模型优先适配国产芯片，是DeepSeek有意推进的战略方向。其目标远不止于多找几家供应商那么简单，而是在尝试触碰更底层的东西——通过摆脱对英伟达的单一依赖，走出由上游芯片厂商定义规则、模型公司被动适配的旧有关系，进而反过来重塑上游生态。这才是DeepSeek沉默背后真正的野心。

要理解这一点，需要回溯其创始人梁文锋的思考。从更早的时间点看，DeepSeek对算力的重视带有一种近乎偏执的前瞻性。早在2015年，甚至可追溯到2012年，团队就开始关注算力储备。至生成式AI爆发前夜，公司已囤积了大量英伟达A100芯片，后来成为了“大厂之外唯一一家储备万张A100芯片的公司”。

梁文锋曾在接受采访时坦言：“对研究员来说，对算力的渴求是永无止境的。做了小规模实验后，总想做更大规模的实验。”这种渴求对应着一个残酷的现实：对大模型公司而言，核心生产资料不仅是算法和代码，更是算力本身。谁能够稳定掌控算力，谁才有资格持续地研发和生产模型。

因此，DeepSeek后来所做的，不只是争取更多算力，更是在试图降低对单一算力体系的绝对依赖。选择国产AI芯片，本质是在构建一套自主可控、可持续的生产体系。

而这种战略抉择，几乎贯穿了其过去多年模型研发的始终。简而言之，它在做两件事：一是绕开英伟达设定好的部分“游戏规则”；二是在尝试给自己打造一个能在不同芯片上工作的“万能转换头”。

第一步发生在模型架构层。2024年5月发布的V2，采用MoE架构大幅降低了模型对算力的消耗。这好比把一个庞大的专家团队拆分成许多专项小组，每次只调动最合适的一小部分人工作，而非让所有人同时上阵。结果是，总参数规模庞大，但每次实际参与计算的只是一小部分，效率显著提升。

到了R1和V3阶段，DeepSeek开始向更底层的“施工现场”下探。我们可以把CUDA理解为英伟达为开发者制定的一套通用施工规范。而DeepSeek开始尝试绕开其中部分标准流程，直接接触更接近硬件的PTX指令，自己调配“钢筋水泥”和施工顺序。

这样做难度极高，因为越靠近底层，越需要对硬件细节有深刻理解。但好处也显而易见：同样一块GPU能被榨出更多性能，甚至在硬件条件不占优时，能用工程优化弥补部分差距，从而降低对顶级GPU的依赖程度。

前两步仍是在英伟达体系内做更高难度的优化。而去年9月V3.2-Exp的尝试，开始有了另一层意味。团队对主流算子库做了调整，引入了TileLang——这正是那个“万能转换头”。

过去开发算子（模型运转最底层的计算单元），很像给不同国家的电器配插头，每换一种GPU，都要重写一遍代码，成本高、周期长，且高度依赖CUDA。DeepSeek的方案是，先用一种更高层、更通用的语言把计算逻辑写出来，再把它“翻译”成适配不同GPU的底层代码。

TileLang就是这样一种尝试。开发者可以先用更接近Python（AI研发的“世界语”）的方式快速写出算子原型，再通过编译器映射到底层执行，并结合具体硬件做优化。这样一来，过去“一块GPU一套代码”的方式，开始转向“先写通用逻辑，再做局部适配”。华&为部分芯片也在推进对TileLang的适配，其意义正在于此。

从架构创新，到规则绕行，再到算子库改写、国产芯片大规模适配，DeepSeek的野心逐步扩大，道路也愈发崎岖。

从V2到V4，中间横跨15个月，经历了长时间的沉寂。外界看到的是发布频率偏低，看不见的是背后大量的系统工程投入。这类软硬件协同创新，本就比单纯的模型参数迭代困难得多，因为它动的不仅是模型本身，还有整个底层技术栈。这也解释了，为什么R1之后DeepSeek的人才成为大厂争抢的目标——行业已然意识到了这种工程路线的巨大价值。

然而，技术理想主义之外，DeepSeek还有现实的商业考量。作为一家坚持开源路线的模型公司，它天然缺乏类似OpenAI那样的闭环商业能力，也没有谷歌或亚马逊那样可以内部消化模型成本的庞大云业务，更不具备腾讯、阿里、字节等大厂那样完备的商业生态。开源意味着更强的影响力和更快的技术扩散速度，但也意味着更薄的利润空间和更高的成本敏感度。

这也是为什么DeepSeek从V2阶段就选择用极致的成本打穿市场，直接掀起“价格战”，本质是通过卓越的工程能力换取商业生存空间。但这种优势建立在一个脆弱的前提上：算力成本必须可控。一旦GPU价格上涨或供给收紧，成本优势便会迅速被侵蚀。因此，对于一家开源公司而言，摆脱对单一算力生态的依赖，不只是一项技术选择，更是一条商业生存的必由之路。

与此同时，激烈的同业竞争进一步放大了这种压力。过去一年，大模型行业高频迭代，主流厂商几乎以周为单位发布新模型。加之多位核心人才流入其他模型厂商或大厂，DeepSeek不得不面对一个现实：如果继续在既有路径上与同业正面竞争，很可能陷入节奏与资源的双重劣势。

在这样的背景下，DeepSeek选择将万亿级参数的自研模型优先适配国产芯片，甚至有意延后向英伟达、AMD提供访问权限，为国产芯片留足软硬件适配、调优的时间，这无疑是一种改变游戏规则的尝试。相比在英伟达CUDA体系内与同业“内卷”，DeepSeek更有可能通过软硬件协同的方式，重新定义自身的优势边界。而这，恰恰是DeepSeek最擅长的——通过工程与架构创新，重写竞争规则。

这意味着，它不再仅仅是一个使用算力的公司，而是在尝试参与定义算力，乃至自下而上地，重塑整个算力生态。

● DeepSeek正通过实现国产芯片软硬件协同挑战英伟达的封锁地位。图源：AI生成。

撕裂英伟达CUDA生态

这已是黄仁勋第二次因DeepSeek而感到紧张。

第一次发生在R1模型发布之时。DeepSeek直接冲击了行业对单纯堆叠算力的路径依赖，也在短期内引发了市场对英伟达需求预期的波动。据报道，去年1月R1模型发布后，经过几天市场情绪的发酵，英伟达股价大幅下跌，短短三天内市值蒸发约6000亿美元。

彼时，黄仁勋曾出面“挽尊”，称DeepSeek及其开源推理模型所带来的能量“令人无比兴奋”，但投资人“判断错误”，误以为这对英伟达及人工智能产业是不利的。他认为这不仅不会终结AI计算需求，反而会扩大并加速市场对更高效AI模型的追求，从而推动整个行业发展。

但现在，黄仁勋不再掩饰对DeepSeek使用华&为芯片的焦虑。

要理解这种焦虑，必须回到英伟达真正的护城河——由CUDA构建的庞大软件生态。

CUDA不仅是一个编程工具，它更像是AI时代的“操作系统”；全球数百万开发者围绕它构建了加速库、框架与模型代码，一整套开发范式由此形成。正因如此，迁移成本极高。一旦离开CUDA，大量底层代码需要重写，工程与测试成本动辄达到千万级别。这才是英伟达长期占据主导地位的核心原因。

目前，国内芯片厂商正在试图填补这一生态空白。例如华&为推出的CANN体系，在设计上直接对标CUDA，通过兼容部分CUDA API和提供自动算子转换工具，来降低开发者的迁移门槛。同时，它支持主流框架，并推动自研框架的落地。这种路径的核心是：先通过兼容降低切换成本，再逐步建立自身生态。

虽然当前性能损耗与工程复杂度问题仍然存在，但国内大模型厂商也在积极努力。几乎所有主流模型厂商，在发布新模型后，都会同步适配多种国产AI芯片，包括昇腾、昆仑芯、寒武纪等。

然而，在相当长一段时间里，这种适配更多停留在“兼容”层面，大多数模型的核心开发与优化仍然围绕CUDA体系进行，并未真正摆脱英伟达生态的引力。

DeepSeek的不同之处在于，它并未完全依赖这种被动的兼容路径。它不是简单地做生态迁移，而是在一定程度上尝试重新搭建一套体系，其目标直指最复杂、最庞杂的生态层。

虽然短期内，DeepSeek很难对英伟达形成实质性冲击，但真正值得关注的是中长期的边际变化。DeepSeek的特殊性在于，它不仅是一个模型厂商，还是一个拥有广泛开发者基础的开源项目。

根据OpenRouter的统计，截至4月13日的一周，全球大语言模型token（词元）消耗量榜单中，DeepSeek-V3.2模型消耗量达1.28万亿，排名全球第二，仅次于Anthropic旗下的Claude Sonnet 4.6模型。但前者的输出价格仅为后者的约1/12，输入价格更是低至1/40。

这意味着，一旦其模型在非CUDA体系上的运行趋于成熟，所带来的将不仅是技术验证，更可能是开发者行为习惯的转变。对于广大开发者而言，是否迁移生态，并不完全取决于底层架构的使用习惯，还取决于模型本身是否足够优秀、使用成本是否足够低廉。

这也正是开源路径的魅力所在。与闭源模型不同，DeepSeek的技术路线、算子实现以及工程经验，都可以被其他模型厂商和硬件厂商借鉴、复用。一旦这种路径被证明可行，其扩散速度可能远快于单一公司的技术突破。

因此，与其说DeepSeek正在直接冲击英伟达，不如说它正在CUDA的坚固城墙上，打开一道裂缝。这道裂缝短期内不会动摇英伟达的主导地位，但如果越来越多的模型厂商开始在训练阶段尝试非CUDA、非英伟达的路径，如果越来越多的开发者开始适应新的工具链，那么英伟达长期建立的软件生态壁垒，可能会从边缘开始，慢慢松动。

当然，这一过程依然充满不确定性。但可以确定的是，随着国产模型和芯片的持续探索，AI时代的竞争焦点，正在从“谁的A100更多、更高端”，逐步转向“谁能构建更完整、更自主的软硬件协同体系”。