阿里云万卡集群组网实战：算力网络解析

AI热点日报时间：2026-07-05

热点解读

最近由于项目需要，我深入研究了阿里云最新一代万卡集群的网络架构HPN 7 0，其中有许多值得分享的细节。先给出几个关键结论：该架构以三层RoCE组网为核心，设计时采用了1:1的收敛比。从整体拓扑看，每个Pod被划分为8个Segment，层次结构非常清晰。首先，我们来深入剖析每个Segment的具体

最近由于项目需要，我深入研究了阿里云最新一代万卡集群的网络架构HPN 7.0，其中有许多值得分享的细节。先给出几个关键结论：该架构以三层RoCE组网为核心，设计时采用了1:1的收敛比。从整体拓扑看，每个Pod被划分为8个Segment，层次结构非常清晰。

简单说说算力网络：阿里云万卡集群组网实战

首先，我们来深入剖析每个Segment的具体构成：

每个Segment部署了16台Leaf交换机，合计提供2048个200Gbps下行端口，这些端口恰好对应128台GPU服务器（每台服务器配备16个200Gbps网口）。据此计算，一个Pod最多可容纳1024台GPU服务器，即8192张GPU卡，其规模令人瞩目。

再来看Leaf交换机本身的配置：每台设备具备64个400Gbps上行端口和128个200Gbps下行端口。其中的映射关系值得注意——每个200Gbps下行端口对应GPU服务器的一个200Gbps网口，而每台GPU服务器拥有16个网口，因此需要连接16台Leaf交换机的200Gbps端口，才能充分利用带宽。

GPU服务器的网卡设计同样精妙：每台服务器安装8块双口200Gbps网卡，共计16个端口，采用双上联冗余接入方式。这意味着每张GPU卡拥有两条独立的上行链路，且这两条链路必须分别连接到不同的交换机。具体而言，在一个Group的128台服务器中，所有1号NIC端口统一接入Leaf交换机的1号端口，而16号NIC端口则接入Leaf交换机的16号端口，层次清晰。

这种双上联设计带来的实际好处非常显著：每个Segment内的GPU数量和通信带宽直接翻倍。Segment内部的GPU之间通信只需经过一台Leaf交换机，最多可支持1024张GPU卡互联，总通信带宽轻松达到409.6Tbps。更重要的是，该设计能够有效应对多种故障场景。例如，当某个上行链路中断、交换机宕机，甚至光模块或光纤出现问题时，流量会自动切换到另一个端口继续传输，避免训练任务直接中断——尽管训练速度可能受到一定影响，但总比完全停摆要好。下图中展示了故障时的流量绕行路径。

以上描述的是Core交换机与Spine交换机按1:1收敛比的标准配置。然而，在近期接触的一个实际项目中，收敛比被调整为了1:15。这很可能并非随意设定，而是阿里基于自身海量流量数据经过长期观测和建模后得出的最优方案。下图仅展示了3个Unit，但从整体网络拓扑已能窥见其设计思路。

整个集群共划分为15个Unit，每个Unit通常部署128至136台GPU服务器。采用双平面设计（Plan A和Plan B），每台GPU服务器的16个200Gbps端口中，8个上联至Plan A，剩余8个上联至Plan B。整个集群最大支持2040台GPU服务器，约合1.6万张GPU卡，规模极其庞大。

每个Unit配备16台Leaf交换机（Plan A和Plan B各8台），15个Unit满配共240台。每台Leaf交换机的上行和下行端口数量分别为60个和68个400Gbps端口。值得注意的是，下行的68个400Gbps端口可拆分为2个200Gbps端口，因此每台Leaf交换机实际上能提供136个200Gbps下行端口。

在满配情况下，Plan A和Plan B各部署60台Spine交换机。每台Spine交换机提供8个上行端口和120个下行端口（均为400Gbps），下行端口中每个400Gbps端口对应一台Leaf交换机的上行400Gbps端口，规划十分精密。

整个集群的顶层架构由8台Core交换机组成，每台Core交换机的上行和下行端口分别为8个和120个400Gbps端口。下行端口中的每一个均对应一台Spine交换机，从而构成了完整的端到端链路。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：阿里云万卡集群组网实战：算力网络解析要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/zhinengyingjian/2025040304853.html

ai 人工智能

上一篇：NVIDIA发布DGX H100系统罗德与施瓦茨推O-RAN无线电单元方案

下一篇：NVIDIA医疗设备AI计算平台与瑞芯微芯片解决方案发布

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周复旦期末考：51名学生联手挑战让AI交白卷 02 / 本周AI Agent性能慢原因解析：Node.js探针串联模型工具与服务链路 03 / 本周企业AI落地自查十二问指南 04 / 本周我的爱马仕包包养成记从入门到精通经验分享 05 / 本周我开发并开源了一款实用高效AI语音输入法SayIt

01 / 本月复旦期末考：51名学生联手挑战让AI交白卷 02 / 本月AI Agent性能慢原因解析：Node.js探针串联模型工具与服务链路 03 / 本月企业AI落地自查十二问指南 04 / 本月我的爱马仕包包养成记从入门到精通经验分享 05 / 本月我开发并开源了一款实用高效AI语音输入法SayIt

热点快看

07-05 18:01复旦期末考：51名学生联手挑战让AI交白卷 07-05 18:01AI Agent性能慢原因解析：Node.js探针串联模型工具与服务链路 07-05 18:01企业AI落地自查十二问指南 07-05 18:01我的爱马仕包包养成记从入门到精通经验分享 07-05 18:00我开发并开源了一款实用高效AI语音输入法SayIt

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别