全面揭秘DeepSeek大模型算力规模与实际GPU使用数量
DeepSeek与幻方量化共享资源,GPU投资超5亿美元,使用约5万个HopperGPU(含H800、H100及H20),总资本支出约16亿美元。其训练成本远非仅600万美元预训练费用,还包括研发与硬件总拥有成本。技术创新如多头潜在注意力大幅降低推理成本。
AI大模型DeepSeek凭借其极低的定价策略与出色的运算效率,在全球范围内引发了广泛关注。其背后的GPU资源投入规模,也因此成为了业界讨论的焦点。
核心内容:
- DeepSeek的低价策略及其对AI算力市场观念的冲击
- DeepSeek与幻方量化的渊源及GPU资源配置详情
- DeepSeek的GPU投资规模与全球资源分布状况

针对这一问题,网络上众说纷纭,甚至连被誉为“硅谷钢铁侠”的马斯克也对DeepSeek提出了强烈的质疑:他不相信这家公司仅仅使用了极少的芯片就能达成如此效果。
那么,DeepSeek到底使用了多少GPU呢?近期,海外分析机构SemiAnalysis对此话题进行了深度剖析,其中许多判断较为符合现实情况。以下将结合该机构的核心观点展开详细解读。
DeepSeek与幻方量化
对于长期关注AI大模型领域的人士而言,DeepSeek严格意义上并不算一家完全从零起步的新公司。
其创始人梁文锋1985年出生于广东湛江,于2015年与友人共同创立了幻方量化(High-Flyer),该公司是最早在交易算法中引入人工智能技术的机构之一。他们很早就洞察到AI在金融领域之外的巨大潜力,以及算力扩展的重要性,因此持续扩充GPU储备。在2021年出口管制政策实施之前,High-Flyer就已经投资了1万个A100 GPU,这一前瞻性举措为其带来了丰厚的回报。
随着High-Flyer技术的不断精进,2023年5月,团队意识到是时候将“DeepSeek”分拆出来,以便更专注地探索更深层次的人工智能能力。当时,外部投资者对AI领域兴趣寥寥,主要顾虑在于缺乏清晰的商业模式。因此,High-Flyer选择自行注资成立这家公司——这在今天看来,堪称一次极其明智的布局。由于这层渊源,如今High-Flyer与DeepSeek在人力资源和计算资源上经常共享。
DeepSeek已经发展成为一项严肃且有组织架构的战略项目,绝非许多媒体所宣称的“副业”。SemiAnalysis认为,即便考虑到出口管制的影响,DeepSeek在GPU上的累计投资也已超过了5亿美元。
DeepSeek的GPU资源分布
SemiAnalysis预估,DeepSeek训练模型大约使用了5万个Hopper架构的GPU,但这并不等同于5万个H100。英伟达根据不同地区的法规,生产了H100的不同变体(如H800、H20),目前仅有H20可供中国的模型供应商合法使用。需要注意的是,H800的计算能力与H100相同,但其网络带宽相对较低。
SemiAnalysis判断,DeepSeek大约动用了1万个H800和1万个H100来执行训练任务。此外,他们还订购了数量更多的H20——英伟达在过去9个月中,已经生产了超过100万个专门为中国市场设计的GPU。这些GPU资源在High-Flyer和DeepSeek之间共享,并在一定程度上实现了地理上的分散部署,用于交易执行、模型推理、算法训练和研究开发等多个环节。
分析数据显示,DeepSeek的服务器总资本支出约为16亿美元,其中运营这些集群的相关成本相当可观,达到了9.44亿美元。同样,所有AI实验室和超大规模云服务商都会将大量GPU用于研究、训练等多样化任务,而非仅仅服务于单次训练运行。因此,如何高效集中资源应对特定任务的训练,也是DeepSeek所面临的现实挑战之一。
在人才招募方面,DeepSeek专注于从中国本土招聘人才,不过分看重过往资历,而是重点考察候选人的实际能力与好奇心。据了解,DeepSeek定期在北京大学和浙江大学等顶尖高校举办招聘会,许多核心员工均毕业于这些学府。职位描述也并非预先严格定义,招聘人员被赋予了充分的灵活性,甚至在招聘广告中宣称可以“无限制使用数万个GPU”。
DeepSeek极具竞争力,据称可为有潜力的候选人提供超过130万美元的年薪,远高于国内其他竞争对手(如月之暗面 Moonshot)。公司目前拥有约150名员工,但正处于快速扩张阶段。
正如历史一再证明的那样,一个资金充裕且目标专注的小型初创公司,往往能够突破现有的边界。DeepSeek没有谷歌那样的臃肿官僚体系,并且由于是自筹资金,他们可以迅速推进创新想法。与谷歌类似,DeepSeek(在大多数情况下)自主运营数据中心,不依赖外部服务商或提供商——这为实验探索打开了更多空间,使其能够在整个技术栈中实现创新。
SemiAnalysis认为,DeepSeek是当今最优秀的“开放灵活”实验室,其表现甚至超越了Meta的Llama项目、Mistral等知名团队。
DeepSeek的训练成本与性能表现
近期,一则新闻头条宣称DeepSeek的价格与效率引发了全球热潮,标题中提到“DeepSeek V3的训练成本仅为600万美元”,这一说法是错误的。这无异于指出产品物料清单中的某个特定部件,并试图将其视作全部成本。事实上,预训练成本只是总成本中一个非常狭窄的组成部分。
下面我们来梳理DeepSeek整体的训练成本构成。预训练的成本远远不是模型实际花费的全部。SemiAnalysis认为,在整个公司的发展历程中,DeepSeek在硬件上的支出已远超5亿美元。在模型开发过程中,为了探索新的架构创新,团队需要在测试新想法、新架构方案以及消融实验上投入相当可观的资金。
例如,多头潜在注意力(Multi-Head Latent Attention, MLA)是DeepSeek的一项关键创新,其开发耗费了团队数月时间,涉及了大量的人力与GPU资源。
文中所提及的600万美元成本,仅被归因于一次预训练运行的GPU成本,这仅仅是模型总成本中的一小部分。被排除在外的,还包括研发投入以及硬件本身的总拥有成本(TCO)等重要组成部分。
作为参考,Claude 3.5 Sonnet的训练成本高达数千万美元——如果这就是Anthropic所需的全部成本,那么他们就没有必要从谷歌筹集数十亿美元、从亚马逊筹集数百亿美元了。因为实际的成本还包括进行实验、提出新架构、收集与清理数据、支付员工薪酬等众多环节。
那么,DeepSeek是如何拥有如此庞大的GPU集群的呢?出口管制的滞后效应是一个关键因素。此外,他们还大量订购了专为中国市场需求而生产的H20型号GPU。
接下来看V3的性能表现。V3无疑是一款令人印象深刻的模型,但值得注意的是,这种“令人印象深刻”是相对于什么参照物而言的。许多人将V3与GPT-4o进行比较,并强调V3的性能超越了4o——这一说法本身属实,但GPT-4o是在2024年5月发布的。在AI领域,这段时间已经足以带来显著的算法进步。
随着时间的推移,使用较少的计算资源实现相同甚至更强的能力是正常现象。例如,如今可以在笔记本电脑上运行的小型模型,其性能已能与GPT-3相当,而GPT-3当年需要超级计算机进行训练,且推理过程需要多个GPU协同工作。
换句话说,算法改进使得训练和推理同等能力模型所需的计算量持续减少,这种模式在历史上已经反复出现。这一次之所以引起全球关注,是因为它来自中国的一家实验室。但小型模型性能提升本身并非新鲜事。
截至目前,我们见证的这种模式表明,人工智能实验室在绝对美元支出上花费更多,以换取更高的性价比。据估算,算法进步的速度约为每年4倍——每过一年,实现相同能力所需的计算量就会减少到原来的四分之一。Anthropic的首席执行官Dario认为,算法进步的速度甚至更快,可以带来10倍的提升。就GPT-3级别的推理定价而言,成本已经降低了1200倍。
在研究GPT-4的成本变化时,我们也看到了类似的下降趋势,尽管目前仍处于曲线更早期的阶段。虽然随着时间的推移,成本差异的缩小可以通过“不再保持能力恒定”来解释,但在这里,算法改进与优化带来了成本10倍的降低以及能力10倍的提升。
需要明确的是,DeepSeek的独特之处在于,他们率先实现了这一成本与能力的平衡点。他们在发布开源权重方面也同样独具特色——尽管此前的Mistral和Llama模型也曾这样做过。DeepSeek已经实现了当前的成本水平,但到今年年底,成本再下降5倍也无需感到惊讶。
R1的性能是否与o1相当?
另一方面,R1能够达到与o1相当的结果,而o1在9月才刚刚发布。DeepSeek是如何如此迅速地迎头赶上的呢?
答案在于,推理是一个全新的范式,它具有更快的迭代速度和更低的入门门槛,能够在较小计算量的情况下取得有意义的收益,这比之前的范式更具优势。正如在扩展定律报告中所概述的那样,之前的范式高度依赖预训练,而这正变得越来越昂贵,也越来越难以获得稳健的收益。
这个新范式的核心在于,通过在现有模型上进行后训练的合成数据生成和强化学习(RL)来实现推理能力,这使得研究团队能够以更低的价格实现更快的进步。较低的入门门槛加上易于优化的特点,使得DeepSeek能够比以往任何时候都更快地复制o1的方法。随着参与者逐渐学会在这个新范式中实现更大规模的扩展,预计未来匹配能力的时间差距将会增加。
需要注意的是,R1的论文中并未提及所使用的计算量——这并非偶然。为了进行R1的后训练,生成合成数据需要大量的计算资源,更不用说强化学习本身了。R1无疑是一个非常优秀的模型,如此迅速地达到推理能力的前沿是令人敬佩的。DeepSeek作为一家中国公司,用更少的资源就迎头赶上,这一点更加令人印象深刻。
但是,R1所引用的一些基准测试也存在一定的误导性。将R1与o1进行比较颇具挑战,因为R1刻意没有提及那些他们没有领先的基准测试。而且,尽管R1在推理性能上与o1大致相当,但在许多具体指标上,它并非明确的胜者,在许多情况下甚至比o1表现更差。
我们还没有提到O3——O3的能力比R1和O1都要高出许多。事实上,OpenAI最近分享了O3的结果,其基准测试的提升是“垂直”式的。“深度学习撞墙了”?但这是另一种类型的“墙”。
谷歌的推理模型与R1相比如何?
尽管R1引发了大量炒作,但一家市值2.5万亿美元的公司早在1个月前就发布了一款更便宜的推理模型:谷歌的Gemini Flash 2.0 Thinking。该模型已经可供使用,并且比R1便宜得多,尽管其通过API提供的模型上下文长度要大得多。在已报告的基准测试中,Flash 2.0 Thinking击败了R1,尽管基准测试并不能说明全部问题。谷歌仅发布了3个基准测试,因此这只能反映部分情况。尽管如此,谷歌的模型是稳健的,在许多方面都能与R1抗衡,尽管它并没有受到太多炒作。这可能是因为谷歌糟糕的上市策略和用户体验不佳,但也因为R1是一个来自中国的“惊喜”产品。
明确地说,这些都不会削弱DeepSeek的杰出成就。DeepSeek作为一个行动迅速、资金充足、头脑聪明且专注的初创公司,能够击败像Meta这样的巨头率先发布推理模型,这是值得称赞的。
DeepSeek技术创新
DeepSeek破解了AI大模型的某些关键“密码”,解锁了领先实验室尚未实现的创新。SemiAnalysis预计,DeepSeek发布的任何改进成果都将被西方实验室几乎立即复制。
这些改进具体是什么?大多数架构上的成就都与V3有关,而V3是R1的基础模型。下面我们来详细拆解这些创新。
训练方面(预训练与微调)
DeepSeek V3在前所未有的规模上使用了多标记预测(MTP),并且增加了注意力模块,这些模块不仅预测单一标记,还能预测接下来的几个标记。这在训练期间显著提升了模型性能,并且可以在推理阶段被舍弃。这是一个通过算法创新,在降低计算量的同时提升性能的典型案例。
此外,还有其他技术考量,比如在训练中使用FP8精度,但领先的美国实验室早已进行了长时间的FP8训练。
DeepSeek V3也是一种混合专家(MoE)模型,它由一个大型模型和许多擅长不同任务的小型“专家”子模型组成——这是一种涌现行为。混合专家模型面临的一个核心挑战是,如何确定每个标记应该分派给哪个子模型或“专家”。
DeepSeek实现了一个“门控网络”,能够以平衡的方式将标记高效地分派给正确的专家,同时不会降低模型性能。这意味着分派过程非常高效,并且在训练期间,相对于模型的整体参数量,每个标记只激活并更新少量参数。这提高了训练效率,并降低了推理成本。
尽管有人担心混合专家(MoE)的效率提升可能会减少行业总投资,但Dario指出,更强大的人工智能模型带来的经济效益是如此巨大,以至于任何成本节约都会迅速被重新投入到构建更大规模的模型中。与其减少整体投资,MoE的效率提升反而会加速人工智能的扩展努力。各大公司正专注于将模型扩展到更多的计算资源上,并在算法上持续提升其效率。
就R1而言,它从一个强大的基础模型(V3)中受益匪浅。这在一定程度上归功于强化学习(RL)。强化学习有两个重点:一是格式化(以确保模型产生连贯的输出),二是有用性与无害性(以确保模型是有用的)。推理能力则是在模型基于合成数据集进行微调的过程中逐渐涌现的。
需要注意的是,R1论文中没有提及计算量——这是因为提及所使用的计算量可能会暴露他们实际拥有的GPU数量远超其声称的数字。这种规模的强化学习需要消耗大量的计算资源,尤其是用于生成合成数据。
此外,DeepSeek使用的部分训练数据似乎来自于OpenAI的模型,SemiAnalysis认为这将对从模型输出中提取信息的政策产生影响。这在服务条款中已经是非法的,但展望未来,一种新的趋势可能是某种形式的KYC(了解你的客户)机制,以阻止信息被提取。
说到信息提取,R1论文中最有趣的部分或许是,能够通过使用推理模型的输出来对较小的非推理模型进行微调,从而将它们转化为推理模型。数据集策划总共包含了80万个样本,现在任何人都可以利用R1的思维链(CoT)输出来创建自己的数据集,并借助这些输出制作推理模型。我们可能会看到更多较小的模型展现出推理能力,从而显著提升小模型的性能表现。
多头潜在注意力(MLA)
MLA是DeepSeek大幅降低推理成本的关键创新之一。其核心原因是,MLA将每个查询所需的KV缓存减少了约93.3%,这与标准注意力机制相比是巨大的提升。KV缓存是Transformer模型中的一种内存机制,用于存储代表对话上下文的数据,从而减少不必要的重复计算。
随着对话上下文的增长,KV缓存也会随之增加,并会带来相当大的内存瓶颈。大幅减少每个查询所需的KV缓存,可以有效减少处理每个查询所需的硬件数量,从而显著降低成本。
然而,SemiAnalysis认为,DeepSeek目前是以成本价提供推理服务来获取市场份额,而非真正依靠此项业务盈利。相比之下,谷歌的Gemini Flash 2.0 Thinking价格更低,且谷歌不太可能以成本价提供该服务。MLA技术因其卓越的效率,特别引起了众多领先美国实验室的密切关注。MLA最早于2024年5月发布的DeepSeek V2中推出。由于H20的内存带宽和容量高于H100,DeepSeek在推理工作负载方面也享受到了更高的效率。
就目前而言,DeepSeek对GPU的庞大需求,凸显了进行高效人工智能基础设施规划的必要性。通过智能的工作负载分配、模型量化以及动态GPU分配策略,各类业务可以显著降低计算成本,同时保持高性能。这或许也是DeepSeek被称为“国运级”产品的重要原因吧。
END
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:全面揭秘DeepSeek大模型算力规模与实际GPU使用数量要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点游戏速通圈出现一项奇特发现:玩家在《海绵宝宝:比奇堡大冒险》的Xbox光盘上涂抹特定图案的油脂污渍,能提升触发“LagChip”手法的成功率。该手法通过快速暂停游戏制造读取延迟,从而利用漏洞跳过关卡。速通爱好者经过大量测试,找到从光盘中心向外涂抹八条放射状油污的最佳方案,这与部分顶尖玩家的习惯吻合
一款新的ASCILINEEngineASCII视频渲染引擎发布,它利用彩色字符或方块实现渲染,在小窗口下可接近360p视频画质,并支持30fps流畅播放。该技术因以文本形式在Canvas中呈现,引发了关于其是否可被广告屏蔽工具识别的讨论。除了争议,其低至每帧几KB的带宽需求,使其特别适合物联网和
法国科学家最新研究发现,胰腺衰老并非无序过程,而是遵循与表观遗传变化相关的特定生物学“程序”。该程序集中影响维持胰岛β细胞正常功能和胰岛素分泌的关键DNA区域,可能是一种适应性过程。然而,在2型糖尿病患者中,这一有序程序被糖尿病以无序方式扰乱,导致基因表达失调和细胞应激。这一发现发表于《自然-通讯》
USB接口的颜色并非随意设计,而是承载着特定的标准与功能信息。官方标准中,白色、黑色、蓝色分别对应USB1 0、2 0和3 0及以上版本。此外,众多厂商也自定义了接口颜色,如华为使用的紫色接口代表40W以上高速充电,橙色代表6A充电线;红黄接口常标识电脑上的高速充电口;雷蛇则用绿色接口体现品牌风格
- 日榜
- 周榜
- 月榜
热点快看
