面包屑图标 当前位置: 首页
AI资讯
热点详情

马斯克xAI十万H100超级集群Colossus深度解读

AI热点日报
AI热点日报时间:2026-07-04
热点解读

2024年9月3日,埃隆·马斯克在X平台震撼宣布:xAI团队仅用122天便成功部署了由10万张H100 GPU组成的Colossus超级计算集群,更计划未来将其扩充至15万张H100与5万张H200。这一建设速度,令业界瞩目。 近期,ServeTheHome发布了一段实地探访Colossus的独家视

2024年9月3日,埃隆·马斯克在X平台震撼宣布:xAI团队仅用122天便成功部署了由10万张H100 GPU组成的Colossus超级计算集群,更计划未来将其扩充至15万张H100与5万张H200。这一建设速度,令业界瞩目。

近期,ServeTheHome发布了一段实地探访Colossus的独家视频,首次披露了大量内部细节。本文基于该视频及公开资料,将深入剖析这座AI超级工厂的方方面面。

项目起源

xAI此前一直依赖Oracle云基础设施(OCI)训练Grok模型,当时仅使用了约1.6万个Nvidia GPU。随着Grok 2的发布,其模型能力已接近GPT-4水平,而下一代Grok 3的研发已提上日程。

从数据规模推算,马斯克认为要训练出足以对标甚至超越GPT-5的Grok 3,至少需要10万张H100 GPU。然而,Oracle未能满足这一庞大需求,导致xAI订单流失。马斯克随即决定自主建设GPU集群,Colossus项目由此诞生。

集群命名同样蕴含深意。“Colossus”一词,既致敬了二战时期诞生的全球首台可编程计算机,也向1970年的经典科幻电影《巨人》表达了敬意。

核心架构

Colossus第一阶段已全面竣工并投入运营。从集群设计到首次训练启动,仅耗时122天,其中10万块H100的组装仅用19天完成。对于如此量级的超级计算集群,以往通常需要数年时间。马斯克后续透露,该集群即将升级——GPU容量将翻倍,新增15万块H100与5万块下一代H200。

网络方案:以太网替代传统InfiniBand

一个值得关注的技术决策是,Colossus采用了基于以太网的网络架构,而非传统的InfiniBand。从实际运行效果来看,这无疑是明智之选。

官方数据显示,在训练超大规模Grok模型时,Colossus实现了零应用延迟降级与零丢包,网络吞吐率稳定在95%(依托Spectrum-X拥塞控制技术)。相比之下,标准以太网在同等规模下会产生数千次流碰撞,吞吐率仅为60%。

Colossus内部每台服务器均基于NVIDIA BlueField-3 SuperNIC DPU,提供400Gbps网络连接。交换机采用Spectrum SN5600以太网交换机,支持64端口、单端口最高800Gb/s,基于Spectrum-4交换机ASIC。

液冷GPU机架

Colossus的基础构建单元是Supermicro液冷机架。每个机架包含8台4U服务器,每台服务器配备8块NVIDIA H100,单机架共计64个GPU。此外,每个机架还配有一台Supermicro冷却液分配单元(CDU)及相关硬件,构成完整的GPU计算节点。

以8个机架为一组,共512个GPU,再配合网络设备,构成整个大系统中的一个子集群。整个Colossus集群大约包含200个这样的机架阵列。

每台服务器均配备独立液冷管路,连接至机架歧管,便于维护与替换。机架底部是Supermicro CDU,配有管理单元与冗余泵,可实时监控流量、温度等关键参数,并通过中央管理界面进行远程调控。在4U空间内集成如此高密度的计算能力,同时确保可维护性,并非所有厂商都能实现。

计算与存储机架

在训练过程中,除GPU外,CPU同样至关重要——数据预处理等环节离不开它。Colossus同样配备了大规模CPU计算节点,每个机架包含42台1U超微服务器。

为支持CPU与GPU高效读取训练数据,集群专门部署了远端存储集群,确保数据吞吐无瓶颈。

特斯拉Megapacks保障电力供应

xAI在调试过程中发现:当10万张H100同时启动训练时,供电会出现毫秒级的微小波动。若不解决,可能引发电力基础设施故障。最终方案是:从发电机等设备向电池输入电力,再由电池平稳放电为训练任务供电,从而消除波动。

深远影响

Colossus的落成,直观反映了当前科技巨头在AI超算中心建设领域的激烈竞争。除了要从NVIDIA手中争取足够的GPU订单,更棘手的制约因素在于能源。

Colossus最终选址田纳西州孟菲斯,核心原因在于当地土地资源充裕且电力供应充足。按10万张H100的规模计算,xAI至少需200兆瓦电力。在算力巅峰背后,电力、水资源等物理世界现实约束,正成为超级计算中心无法回避的硬性门槛。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:马斯克xAI十万H100超级集群Colossus深度解读要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/LargeLanguageModel/2025032357834.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-04 18:24
TinyStudio AI字幕生成器

TinyStudio借助M1 M2芯片硬件加速和OpenAIWhisper技术,在本地离线快速生成字幕,数据安全有保障。内置校正系统提升准确率,界面友好,支持一键生成与导入导出,为Vlogger、营销人员和社交媒体爱好者提升字幕制作效率。

AI热点2026-07-04 18:24
Podpod使用人工智能主持人将文章通讯一键转化为播客

Podpod可通过在文章链接前添加“podpod me ”或转发通讯至专属邮箱,将文字内容转化为由人工智能主持人朗读的播客节目并推送至播客应用,支持文章与通讯转播客、多音色AI主播及RSS频道生成。

AI热点2026-07-04 18:23
AI播客平台NotebookAI使用指南

AIdeaFlowPodcast是一款文本转播客平台,支持120多种声音和自然对话风格,可在几秒内生成多语言音频。内置智能助手优化脚本、互动主持人增强对话,输出纯播客、对话体等形态,无需专业设备即可快速制作。

AI热点2026-07-04 18:23
成功AI提供无限B2B线索与自动化电邮增长

Success ai整合700万+B2B线索库、无限电邮账户、自动预热与AI写作,实现大规模获客与高效触达,提升账户信誉及回复率,覆盖从线索获取到邮件触达全链条,助力企业增长。

延伸阅读