智谱AI与清华联合推出下一代大模型推理架构ZCube
在大模型推理集群的部署中,网络架构常常成为那个“看不见的瓶颈”。尤其是当计算与存储分离(PD分离)成为主流选择后,跨节点传输KV Cache所产生的动态、不对称流量,很容易在传统的Clos网络结构中形成局部热点,引发拥塞和性能抖动。有没有一种方法,能从网络拓扑的根源上解决这个问题?最近,由智谱AI、驭驯网络与清华大学联合推出的ZCube,给出了一份颇具启发性的答卷。
ZCube是什么
简单来说,ZCube是一套专为应对PD分离部署中结构性网络拥塞而设计的下一代大模型推理网络架构。它的核心思路相当大胆:直接取消传统三层Clos网络中的Spine层交换机,转而采用全网扁平化的拓扑结构,并创新性地引入了单轨与多轨混合的GPU接入机制。这套组合拳的目标非常明确——实现全局流量的彻底解耦与离散化路由。
效果如何?在GLM-5.1 coding模型的实际生产环境测试中,在保持GPU硬件和软件栈完全不变的前提下,ZCube架构成功将交换机与光模块的资本支出降低了33%。更关键的是性能提升:GPU的平均推理吞吐提升了15%,而衡量用户体验的首Token响应时间(TTFT)的P99分位数更是显著降低了40.6%。这些数字背后,是网络瓶颈被实质性打破的证明。
ZCube的主要功能
- 取消Spine层的扁平化组网:这可以说是ZCube最碘伏性的设计。它摒弃了传统Clos架构层层堆叠的思路,只保留Leaf交换机层,并通过一种称为“完全二部图”的方式将所有Leaf交换机互联起来。这样一来,网络中任意两点间的通信距离(网络直径)就从传统的3跳被压缩到了仅需2跳。
- 单/多轨混合接入机制:这是实现流量离散化的关键。ZCube将Leaf交换机分为两组,一组以“单轨”方式连接连续编号的GPU,另一组则以“多轨”方式连接相同编号的GPU。这种巧妙的差异化接入设计,使得PD分离产生的那种动态、不对称的流量,在进入网络时就被天然地打散到了不同的路径上。
- 全局负载均衡路由:得益于其独特的拓扑和接入规则,ZCube的路由策略能够确保任意两块GPU之间只存在一条唯一的最优路径。这就从根本上避免了多路径路由中常见的流量冲突和哈希不均问题,无论是在训练还是推理场景下,都能实现接近理想的全局负载均衡。
- 结构性拥塞消除:上述所有功能的最终指向,都是解决那个根本性问题。ZCube通过架构层的创新,将KV Cache的跨节点传输流量进行了全局性的解耦与离散化,从而从源头上消除了导致局部热点链路和PFC反压的结构性原因。
ZCube的技术原理
要理解ZCube为何有效,需要稍微深入一下其技术内核。它的工作原理可以拆解为以下几个紧密关联的部分:
- 完全二部图拓扑:这是网络扁平化的基础。所有Leaf交换机会被按照奇偶序号分为两组,组内的交换机之间互不连接,而组间的每一台交换机则与另一组的所有交换机实现全连接。这就形成了一个高度对称且简洁的扁平网络。
- 双端口差异化接入:每张GPU网卡通常配备两个端口,ZCube对这两个端口做了差异化分工。一个端口以单轨模式连接至奇数编号的Leaf交换机,另一个端口则以多轨模式连接至偶数编号的Leaf交换机。通过一套精密的数学映射公式,实现了确定性的、离散化的路由。
- 确定性最短路径路由:路由计算本身变得异常简洁高效。基于GPU编号和交换机编号进行模运算和向上取整映射,可以确保任意两个GPU之间的通信,必然且仅经过两台特定的Leaf交换机,这条路径就是全局最优且唯一的。
- 流量模式适配:这套架构仿佛是专为PD分离的流量特征量身定制的。它不需要依赖复杂的自适应路由算法或报文喷洒(Spray)等传输层机制,仅凭其拓扑结构本身,就能将源-目的不对称、动态变化的KV Cache传输流量自然地分散到全网,实现“以静制动”。
如何使用ZCube
将ZCube从理论架构落地到生产环境,遵循一套清晰的步骤:
- 架构规划:首先,根据集群规模,将Leaf交换机按奇偶序号进行分组,并规划设计完全二部图的互联拓扑,这意味着你需要告别传统的Spine层交换机。
- 端口接入配置:为集群中的每一张GPU网卡配置其双端口的接入策略,严格按照单轨(连接奇数交换机)与多轨(连接偶数交换机)的混合模式进行连线。
- 自动化部署:利用ZCube提供的控制器、机房布局设计工具以及连线正确性检测程序,可以高效地完成配置的自动生成与批量下发,大幅降低部署复杂度和出错概率。
- 生产验证:在推理服务正式上线前,务必进行严格的带宽、时延和PFC事件监控。确认全网无结构性拥塞热点后,再进行流量切换,确保平稳过渡。
ZCube的核心优势
综合来看,ZCube带来的价值是多维且显著的:
- 成本显著降低:在同等规模下,相比传统的Clos或其优化变体ROFT,ZCube能节省约33%的交换机和光模块投入。折算到万卡级别的智算集群,网络硬件投资节省可能高达数亿元。
- 推理性能提升:生产环境实测数据最有说服力。GLM-5.1 coding模型上实现的15%以上吞吐提升和40.6%的TTFT P99下降,直接转化为更高的服务效率和更好的用户体验。
- 超强扩展能力:基于当前主流的51.2T交换机,ZCube架构可以构建连接超过1.6万块400Gbps网卡的扁平网络。通过多平面划分,其理论可扩展性能够支持数万乃至数十万GPU的互联,为未来集群的膨胀预留了空间。
- 零侵入式升级:这一点对于已有关键业务尤为重要。采用ZCube无需改动现有的GPU硬件、驱动、软件栈或上层应用逻辑,仅仅通过网络架构层的调优,就能释放出被瓶颈束缚的硬件潜能,升级风险极低。
ZCube的项目地址
- 若希望了解更详细的技术细节、设计论文或最新动态,可以访问其项目官网:https://z.ai/blog/zcube
ZCube的同类竞品对比
为了更清晰地定位ZCube,我们将其与当前领域内另一种先进的网络架构ROFT进行对比:
| 对比维度 | ZCube | ROFT(Rail-Optimized Fat-Tree) |
|---|---|---|
| 网络架构 | 扁平化二部图,取消Spine层 | 两层Fat-Tree,保留Spine层 |
| 网络直径 | 2跳 | 3跳 |
| 负载均衡 | 全局理想均衡,单路径无冲突 | 静态Rail映射,推理场景易失衡 |
| 拥塞控制 | 从架构层消除结构性拥塞 | 易产生局部热点和PFC反压 |
| 硬件成本 | 降低33%交换机和光模块 | 标准Clos成本 |
| 推理吞吐 | 提升15% | 基准 |
| TTFT P99 | 降低40.6% | 基准 |
| 扩展规模 | 数万至数十万GPU | 受Spine层容量限制 |
ZCube的应用场景
综上所述,ZCube并非一个通用网络方案,而是在特定场景下能发挥巨大价值的专用架构:
- 超大规模LLM推理集群:尤其适用于采用PD分离部署的千卡至万卡级别推理集群,是解决KV Cache跨节点传输网络瓶颈的一剂“靶向药”。
- 长上下文推理服务:随着模型上下文窗口不断增长,长序列推理对网络带宽更为敏感。ZCube架构能有效缓解网络对首Token时延和整体吞吐的制约。
- 高密度智算中心:为同时承载训练和推理混合负载的智算中心,提供了一个高均衡性、低时延、高带宽利用率的网络底座选择。
- MaaS云服务平台:对于提供模型即服务的云平台,ZCube有助于降低推理服务的综合成本,并在多租户、高并发场景下提升服务尾时延的稳定性,改善SLA。
总的来看,ZCube代表了一种解决网络瓶颈的新思路:与其在复杂的路由算法和流控机制上不断修补,不如从拓扑结构上进行根本性的创新。它用更简洁的架构、更低的成本,换来了更确定、更高效的性能表现,这或许能为未来大规模AI算力基础设施的设计,提供一个重要的参考方向。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
超自动化如何提升企业核心竞争力与长期价值
超自动化(Hyperautomation)早已不是科技媒体上的概念热词,它正实实在在地成为驱动企业变革的核心引擎。简单来说,它不是一个单一工具,而是一套将RPA(机器人流程自动化)、AI、OCR乃至大语言模型等前沿技术深度融合的业务框架。那么,这套框架究竟能为企业带来哪些难以被复制的长期价值?今天,
智谱AI与清华联合推出下一代大模型推理架构ZCube
在大模型推理集群的部署中,网络架构常常成为那个“看不见的瓶颈”。尤其是当计算与存储分离(PD分离)成为主流选择后,跨节点传输KV Cache所产生的动态、不对称流量,很容易在传统的Clos网络结构中形成局部热点,引发拥塞和性能抖动。有没有一种方法,能从网络拓扑的根源上解决这个问题?最近,由智谱AI、
谷歌核心业务面临哪些关键挑战
2026年的Google I O大会,舆论场上的叙事出奇一致:“量大管饱”、“Agent帝国”、“操作系统级胜利”。 但如果你愿意多追问一句:当一家公司把什么都做成“系统”的时候,它的命门是不是也同时藏在了这套系统里? 那么,我们不妨顺着这个思路往下看。 速度换时间,却换不来护城河 这场发布会最抢眼
前端频繁改版致自动化失效?智能体架构实现前后端彻底解耦
在RPA开发和自动化测试的日常工作中,有一个令人头疼的高频问题:原本顺畅运行的业务流程突然中断报错。检查日志后,我们常常会发现类似下面的典型错误信息: [Error] ElementNotFoundException: Message: no such element: Unable to loca
乐聚机器人冲刺上市 打折策略跻身行业前四
短短两天,两家头部具身智能公司接连公开招股书。上市热潮涌动之下,这个行业最真实的一面,也前所未有地清晰呈现在市场面前。 5月19日,深交所受理了乐聚(深圳)智能股份有限公司的创业板IPO申请。值得注意的是,这是首家选择使用创业板第四套上市标准的企业。这套标准对市值和营收增长有明确要求,乐聚的入场,本
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

