当前位置: 首页
科技数码
全球首发GB300算力巨兽,OpenAI内斗致70亿GPU资源浪费

全球首发GB300算力巨兽,OpenAI内斗致70亿GPU资源浪费

热心网友 时间:2025-10-11
转载

为了争夺有限的GPU,OpenAI内部一度打得不可开交。2024年总算力投入70亿美元,但算力需求依旧是无底洞。恰恰,微软发布了全球首台GB300超算,专供OpenAI让万亿LLM数天训完。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

麻 将

过去一年,OpenAI在算力上斥资70亿美元。

其中,大模型研发占了最大头——50亿美元,而推理计算仅用了20亿美元。

可见,LLM训练正吞噬无尽的算力,这也是OpenAI最近一直在大举扩展超算建设与合作的重要原因。

采访中,OpenAI总裁Greg Brockman坦言,「内部如何分配GPU,简直就是一场痛苦与煎熬」。

OpenAI各个团队争抢GPU,那叫一个激烈。最头疼的是,如何去合理分配。

如今,甲骨文、英伟达、AMD等芯片巨头/云服务巨头,纷纷与OpenAI联结,能够解其燃眉之急。

这不,就连曾经最大的「金主爸爸」微软也上阵了。

纳德拉官宣,全球首个配备4600+ GB300的超算率先上线,专攻OpenAI。预计,未来将扩展到十万块GPU。

英伟达称,这一算力巨兽,可以让OpenAI不用数周,仅在数天内训练万亿参数模型。

全球首台GB300超算,数天训出万亿LLM

就在昨天,微软Azure宣布成功交付了,全球首个生产级超大规模AI集群。

它搭载了超4600个GB300 NVL72,配备通过下一代InfiniBand网络互联的Blackwell Ultra GPU。

今年早些时候,微软曾推出GB200 v6虚拟机(VM),通过大规模GB200 NVL2集群,已在OpenAI内部训练部署得到应用。

这一次,GB300 v6虚拟机再次树立了行业标杆。

该系统基于机架级设计,每个机架包含18个虚拟机,共计72个GPU:

72个Blackwell Ultra GPU,搭配36个Grace CPU 通过下一代Quantum-X800 InfiniBand,实现每GPU 800 Gb/s的跨机架横向扩展带宽(2x GB200 NVL72) 机架内130 TB/s的NVLink带宽 37TB高速内存 高达1,440 PFLOPS的FP4 Tensor Core性能

全新设计,为大规模AI超算而生

为打造出最强超算,微软对计算、内存、网络、数据中心、散热和供电等技术栈的每一层,都进行了重新设计。

机架层:低延迟高吞吐

通过NVLink和NVSwitch,GB300 v6在机架层面实现了高达130TB/s的机架内数据传输速率,连接了总计37TB的高速内存,由此消除了内存和带宽瓶颈。

在大模型和长上下文场景下,推理吞吐量大幅提升,为AI智能体和多模态AI带来前所未有的响应速度和扩展性。

同时,Azure部署了采用当今最快网络 fabric——Quantum-X800 Gbp/s InfiniBand——的全连接胖树(fat-tree)无阻塞架构,能够跨机架扩展数万个GPU。

此外,Azure散热系统采用独立的「散热器单元」和「设施级冷却方案」。

在为GB300 NVL72这类高密度、高性能集群保持热稳定性的同时,最大限度地减少了水资源消耗。

软件层:全面优化

不仅如此,微软为存储、编排和调度重构的软件栈也经过全面优化,能够在超算规模上充分利用计算、网络、存储和数据中心基础设施,提供前所未有的高性能和高效率。

OpenAI GPU争夺战,一场「痛苦与煎熬」

在OpenAI内部,正上演一场GPU激烈争夺战。

上周四,Greg在一期「Matthew Berman」播客节目中,自曝管理算力资源分配的过程,令人揪心且筋疲力尽。

这太难了,你总能看到各种绝妙的点子,然后又有人带着另一个绝妙的点子来找你,你心想,这个也太棒了。

在OpenAI内部,将算力资源主要分配给「研究」和「应用产品」两个方向。

为了应对算力分配的挑战,OpenAI建立了一套相对清晰的资源分配机制:

高层决策:由奥特曼和Fidji Simo组成的领导团队,决定研究团队与应用团队之间的总体算力划分; 研究团队内部协调:首席科学家和研究负责人,决定研究团队资源分配; 运营层:由Kevin Park领导的小型内部团队负责GPU的具体分配和调动。

OpenAI复杂算力关系网络图

Greg提到,当一个项目接近尾声时,Kevin会重新分配硬件资源,以支持新启动的项目。

算力驱动着整个团队的生产力,此事干系重大。

大家对此都非常在意。人们对「我能否分到算力」这件事所投入的精力与情感强度远超想象。

一直以来,OpenAI多次公开表达其对算力永不满足的需求。

OpenAI首席产品官Kevin Weil曾表示,「我们每次拿到新的 GPU,它们都会被立刻投入使用」。

OpenAI对算力的需求逻辑很简单——

GPU的数量直接决定了AI应用的能力上限。获得的GPU越多,所有人就能使用越多的AI。

不仅OpenAI,整个行业科技巨头也在加码算力投入。小扎透露,Meta正将「人均算力」打造为核心竞争优势。

上个月,奥特曼称,OpenAI正在推出「算力密集型服务」。

当我们以当前模型的成本,将海量算力投入到有趣的新想法上时,能创造出怎样的可能性?

这场算力争夺战中,谁手握最多的算力,将决定谁在AI竞赛中脱颖而出。

参考资料

https://x.com/satyanadella/status/1976322455288545343

https://x.com/Azure/status/1976319720472138045 https://azure.microsoft.com/en-us/blog/microsoft-azure-delivers-the-first-large-scale-cluster-with-nvidia-gb300-nvl72-for-openai-workloads/

https://www.businessinsider.com/openai-president-allocate-gpu-compute-internally-greg-brockman-2025-10

来源:https://36kr.com/p/3504581264088201

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
AI能从单份血样检出多种神经疾病

AI能从单份血样检出多种神经疾病

来源:科技日报科技日报讯 (记者刘霞)由瑞典隆德大学领衔的国际研究团队,研发出一款新的人工智能(AI)模型。该模型仅需一份血液样本,便能精准识别多种神经退行性疾病。团队期望,该AI模型未来能实现“一

时间:2026-04-07 14:55
褪去虚火,脑机接口方能释放长远价值

褪去虚火,脑机接口方能释放长远价值

来源:科技日报2026年开年,马斯克宣称脑机接口产品将于年内启动量产,引爆全球市场情绪。国内资本随即扎堆追捧,脑机接口相关概念股大幅走高,行业短期炒作虚火蔓延。进入3月,脑机接口迎来多重利好:脑机接

时间:2026-04-07 14:55
黎万强、洪锋退出小米科技股东名单

黎万强、洪锋退出小米科技股东名单

人民财讯4月7日电,企查查APP显示,近日,小米科技有限责任公司发生工商变更,原股东小米联合创始人黎万强、洪锋退出,同时,注册资本由18 5亿元减至约14 8亿元。 企查查信息显示,该公司成立于20

时间:2026-04-07 14:55
新闻分析|“阿耳忒弥斯2号”任务为何只绕月不登月

新闻分析|“阿耳忒弥斯2号”任务为何只绕月不登月

  新华社北京4月7日电 新闻分析|“阿耳忒弥斯2号”任务为何只绕月不登月  新华社记者张晓茹  美国东部时间6日18时40分许(北京时间7日6时40分许),执行美国“阿耳忒弥斯2号”载人绕月飞行任

时间:2026-04-07 14:55
“链接未来·智汇静安”区块链创新应用优秀场景分享(四)| 信医基于区块链与隐私计算的真实世界研究数据产品

“链接未来·智汇静安”区块链创新应用优秀场景分享(四)| 信医基于区块链与隐私计算的真实世界研究数据产品

聚焦数字技术,释放创新动能。为集中展示静安区区块链技术从“实验室”走向“应用场”的丰硕成果,挖掘一批可复制、可推广的行业解决方案,加速构建区块链产业生态闭环,静安区数据局特推出“静安区区块链创新应用

时间:2026-04-07 14:55
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程