智谱AI与清华联合发布新一代大模型推理架构ZCube
在大模型推理集群的部署中,网络架构正成为一个越来越关键的瓶颈。传统的Clos架构在面对PD分离(预填充与解码分离)带来的动态、不对称流量时,常常力不从心,结构性拥塞和PFC反压问题频发。有没有一种方法,能从网络拓扑的根子上解决这个问题?智谱AI联合驭驯网络与清华大学推出的ZCube,给出了一个颇具碘伏性的答案。
ZCube是什么
简单来说,ZCube是一套专为下一代大模型推理设计的网络架构。它的核心目标非常明确:根治PD分离部署中由KV Cache跨节点传输引发的结构性网络拥塞。其设计思路堪称大胆——直接取消了传统数据中心网络中的Spine层交换机,转而采用全网扁平化的拓扑,并结合单轨/多轨混合接入机制,实现了全局流量的解耦与离散化路由。
效果如何?在GLM-5.1 coding模型的生产环境实测中,在保持GPU硬件和软件栈完全不变的前提下,仅通过部署ZCube,就实现了交换机与光模块资本支出降低33%,GPU平均推理吞吐提升15%,首Token时延(TTFT)的P99分位数更是大幅降低了40.6%。这些数字背后,是网络底层逻辑的一次重要革新。
ZCube的主要功能
- 取消Spine层的扁平化组网:这可能是ZCube最引人注目的特点。它彻底打破了传统Clos架构层层堆叠的思维定式,只保留Leaf交换机层,并通过完全二部图的方式实现互联。这一改动直接将网络直径从3跳压缩到了2跳,路径更短,延迟自然更低。
- 单/多轨混合接入机制:这是实现流量离散化的关键。ZCube将一组Leaf交换机用单轨方式连接连续编号的GPU,另一组则用多轨方式连接相同编号的GPU。这种巧妙的安排,使得PD分离产生的动态、不对称流量能够“天然地”被分散到不同链路上,从源头避免了热点形成。
- 全局负载均衡路由:ZCube的路由策略确保了任意一对GPU之间只存在一条唯一的最优路径。这听起来似乎限制了灵活性,但实际上它完美避免了多路径选路可能带来的流量冲突问题,无论是在训练还是推理场景下,都能实现接近理想的全局负载均衡。
- 结构性拥塞消除:通过上述架构层的创新,ZCube能够将KV Cache的传输流量进行全局性的解耦和打散,从而从根本上消除了局部热点链路和由此触发的PFC反压,让网络运行更加顺畅。
ZCube的技术原理
理解了功能,我们再来看看它是如何实现的。ZCube的底层逻辑清晰而优雅:
- 完全二部图拓扑:所有Leaf交换机会被按奇偶序号分为两组。组内的交换机彼此不连接,而组间的每一台交换机都与另一组的所有交换机实现全连接。这就形成了一个高度对称且扁平的网络。
- 双端口差异化接入:每张GPU网卡的两个端口被赋予了不同的“使命”。一个端口以单轨模式连接奇数交换机,另一个则以多轨模式连接偶数交换机。通过一套精确的数学映射公式,实现了确定性的路由。
- 确定性最短路径路由:路由计算基于GPU编号和交换机编号的模运算及向上取整映射。这套机制保证了任意两个GPU之间的通信,必然且仅经过两台Leaf交换机,路径是最短且确定的。
- 流量模式适配:ZCube的高明之处在于,它没有试图用复杂的传输层协议(如自适应路由或报文喷洒)去“管理”PD分离的混乱流量,而是通过拓扑结构本身,让这种流量模式“被动地”被分散开。以静制动,效果反而更好。
如何使用ZCube
将这样一套新架构落地,步骤是否很复杂?实际上,它的部署路径相当清晰:
- 架构规划:首先,需要根据集群规模,将Leaf交换机按奇偶分组,设计好完全二部图的互联拓扑。这一步的核心是彻底告别Spine层。
- 端口接入配置:接着,为集群中每一张GPU网卡的双端口,配置好单轨与多轨混合接入策略,确保它们正确连接到对应的奇数组或偶数组交换机。
- 自动化部署:利用ZCube提供的控制器、机房布局设计工具和连线检测程序,可以自动生成配置并批量下发,大幅降低部署复杂度和人為出错风险。
- 生产验证:在正式承载推理业务流量前,务必进行充分的带宽、时延和PFC事件监控测试,确认网络中不存在结构性拥塞热点后,再进行切流。
ZCube的核心优势
- 成本显著降低:在同等规模下,相比传统的Clos或其优化版本ROFT架构,ZCube能节省约33%的交换机和光模块投入。折算到万卡级别的智算集群,网络硬件投资节省可能高达2.1亿至6.4亿元。
- 推理性能提升:生产环境的数据最有说服力。在GLM-5.1 coding的实测中,平均推理吞吐提升超过15%,TTFT P99降低40.6%,这意味着更快的响应速度和更稳定的用户体验。
- 超强扩展能力:基于当前主流的51.2T交换机,单平面ZCube网络即可连接16384块400Gbps的网卡。通过多平面划分,可以轻松支持数万乃至数十万GPU的互联,扩展性天花板极高。
- 零侵入式升级:这一点对现有集群尤为重要。采用ZCube无需改动GPU硬件、驱动、AI软件栈或应用逻辑,仅仅通过网络架构层的调优,就能充分释放现有硬件潜力,升级路径平滑。
ZCube的项目地址
对技术细节感兴趣的研究者或工程师,可以访问其项目官网获取更深入的资料。
- 项目官网:https://z.ai/blog/zcube
ZCube的同类竞品对比
为了更直观地展现ZCube的差异,我们将其与当前另一种针对大模型优化的网络架构ROFT进行对比:
| 对比维度 | ZCube | ROFT(Rail-Optimized Fat-Tree) |
|---|---|---|
| 网络架构 | 扁平化二部图,取消Spine层 | 两层Fat-Tree,保留Spine层 |
| 网络直径 | 2跳 | 3跳 |
| 负载均衡 | 全局理想均衡,单路径无冲突 | 静态Rail映射,推理场景易失衡 |
| 拥塞控制 | 从架构层消除结构性拥塞 | 易产生局部热点和PFC反压 |
| 硬件成本 | 降低33%交换机和光模块 | 标准Clos成本 |
| 推理吞吐 | 提升15% | 基准 |
| TTFT P99 | 降低40.6% | 基准 |
| 扩展规模 | 数万至数十万GPU | 受Spine层容量限制 |
ZCube的应用场景
那么,哪些场景最适合ZCube大显身手呢?
- 超大规模LLM推理集群:尤其是采用PD分离部署的千卡至万卡级推理集群,ZCube能直接解决KV Cache跨节点传输这个核心瓶颈。
- 长上下文推理服务:处理长文本序列时,网络带宽对首Token时延和整体吞吐制约明显,ZCube的架构能有效缓解这一压力。
- 高密度智算中心:对于同时承载训练和推理混合负载的数据中心,ZCube能提供一个高均衡、低时延、高带宽利用率的网络底座。
- MaaS云服务平台:模型即服务平台需要兼顾成本与性能。ZCube在降低推理综合成本的同时,能显著提升多租户高并发场景下的尾时延稳定性,增强服务竞争力。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
ClawBot如何快速调整话术上线季节性促销活动
节假日期间ClawBot话术切换慢,通常因专属提示词模板缺失、活动参数未注入或策略未绑定活动ID所致。可通过四步解决:配置节日专属模板并热生效;绑定活动ID与话术策略;注入实时促销参数;最后进行灰度测试与数据优化,确保话术准确高效。
豆包大模型推理成本优化方法与降本策略
豆包大模型部署需优化配置:批量处理应确保batch_size≥4,采用预填充与解码分离模式。移动端需手动指定量化位数,避免长上下文在轻量版运行。迁移模型须用专用工具重训路由参数,专家数量不宜过多。量化应精细化,仅针对部分计算密集模块,并禁用框架自动转换,以平衡效率与精度。
可灵AI制作气泡上升破裂特效详细教程
在可灵AI中生成气泡从液体底部升起到水面破裂的特写镜头时,若效果不佳,可尝试:将过程拆解为三个物理阶段并用精确参数描述;利用首尾帧控制并配合光学破裂指令;启用视频3 0模型并注入液体粘度、表面张力等物理参数;上传真实液体基底图并开启表面法线重建功能,以引导模型模拟真。
AI模特换装视频效果真实自然吗服装电商实测解析
使用可灵AI制作服装电商换装视频时,需提供高清、姿态标准且背景简洁的原图。调整参数时应强化物理模拟与运动平滑,关闭风格化增强。复杂服装可采用分层替换与局部重绘处理。最后,引入真实动作参考视频进行微观校准,可显著提升动作自然度与布料动态真实感。
QoderWake数字分身动作捕捉与还原技术详解
QoderWake数字分身通过五大核心技术实现动作精准捕捉与还原。基于Session账本三维锚定行为轨迹,确保可追溯与复现。Harness-First架构隔离意图与执行,保障操作安全。Critic-Refiner机制自动验证动作质量并闭环纠偏。防腐治理动态评估动作有效性,防止模板老化。Connector生态建立跨工具动作映射,确保异构系统间操作一致。这些技术
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

