当前位置: 首页
AI资讯
智谱AI与清华联合发布新一代大模型推理架构ZCube

智谱AI与清华联合发布新一代大模型推理架构ZCube

热心网友 时间:2026-05-21
转载

在大模型推理集群的部署中,网络架构正成为一个越来越关键的瓶颈。传统的Clos架构在面对PD分离(预填充与解码分离)带来的动态、不对称流量时,常常力不从心,结构性拥塞和PFC反压问题频发。有没有一种方法,能从网络拓扑的根子上解决这个问题?智谱AI联合驭驯网络与清华大学推出的ZCube,给出了一个颇具碘伏性的答案。

ZCube – 智谱AI联合清华推出的下一代大模型推理网络架构

ZCube是什么

简单来说,ZCube是一套专为下一代大模型推理设计的网络架构。它的核心目标非常明确:根治PD分离部署中由KV Cache跨节点传输引发的结构性网络拥塞。其设计思路堪称大胆——直接取消了传统数据中心网络中的Spine层交换机,转而采用全网扁平化的拓扑,并结合单轨/多轨混合接入机制,实现了全局流量的解耦与离散化路由。

效果如何?在GLM-5.1 coding模型的生产环境实测中,在保持GPU硬件和软件栈完全不变的前提下,仅通过部署ZCube,就实现了交换机与光模块资本支出降低33%,GPU平均推理吞吐提升15%,首Token时延(TTFT)的P99分位数更是大幅降低了40.6%。这些数字背后,是网络底层逻辑的一次重要革新。

ZCube的主要功能

  • 取消Spine层的扁平化组网:这可能是ZCube最引人注目的特点。它彻底打破了传统Clos架构层层堆叠的思维定式,只保留Leaf交换机层,并通过完全二部图的方式实现互联。这一改动直接将网络直径从3跳压缩到了2跳,路径更短,延迟自然更低。
  • 单/多轨混合接入机制:这是实现流量离散化的关键。ZCube将一组Leaf交换机用单轨方式连接连续编号的GPU,另一组则用多轨方式连接相同编号的GPU。这种巧妙的安排,使得PD分离产生的动态、不对称流量能够“天然地”被分散到不同链路上,从源头避免了热点形成。
  • 全局负载均衡路由:ZCube的路由策略确保了任意一对GPU之间只存在一条唯一的最优路径。这听起来似乎限制了灵活性,但实际上它完美避免了多路径选路可能带来的流量冲突问题,无论是在训练还是推理场景下,都能实现接近理想的全局负载均衡。
  • 结构性拥塞消除:通过上述架构层的创新,ZCube能够将KV Cache的传输流量进行全局性的解耦和打散,从而从根本上消除了局部热点链路和由此触发的PFC反压,让网络运行更加顺畅。

ZCube的技术原理

理解了功能,我们再来看看它是如何实现的。ZCube的底层逻辑清晰而优雅:

  • 完全二部图拓扑:所有Leaf交换机会被按奇偶序号分为两组。组内的交换机彼此不连接,而组间的每一台交换机都与另一组的所有交换机实现全连接。这就形成了一个高度对称且扁平的网络。
  • 双端口差异化接入:每张GPU网卡的两个端口被赋予了不同的“使命”。一个端口以单轨模式连接奇数交换机,另一个则以多轨模式连接偶数交换机。通过一套精确的数学映射公式,实现了确定性的路由。
  • 确定性最短路径路由:路由计算基于GPU编号和交换机编号的模运算及向上取整映射。这套机制保证了任意两个GPU之间的通信,必然且仅经过两台Leaf交换机,路径是最短且确定的。
  • 流量模式适配:ZCube的高明之处在于,它没有试图用复杂的传输层协议(如自适应路由或报文喷洒)去“管理”PD分离的混乱流量,而是通过拓扑结构本身,让这种流量模式“被动地”被分散开。以静制动,效果反而更好。

如何使用ZCube

将这样一套新架构落地,步骤是否很复杂?实际上,它的部署路径相当清晰:

  • 架构规划:首先,需要根据集群规模,将Leaf交换机按奇偶分组,设计好完全二部图的互联拓扑。这一步的核心是彻底告别Spine层。
  • 端口接入配置:接着,为集群中每一张GPU网卡的双端口,配置好单轨与多轨混合接入策略,确保它们正确连接到对应的奇数组或偶数组交换机。
  • 自动化部署:利用ZCube提供的控制器、机房布局设计工具和连线检测程序,可以自动生成配置并批量下发,大幅降低部署复杂度和人為出错风险。
  • 生产验证:在正式承载推理业务流量前,务必进行充分的带宽、时延和PFC事件监控测试,确认网络中不存在结构性拥塞热点后,再进行切流。

ZCube的核心优势

  • 成本显著降低:在同等规模下,相比传统的Clos或其优化版本ROFT架构,ZCube能节省约33%的交换机和光模块投入。折算到万卡级别的智算集群,网络硬件投资节省可能高达2.1亿至6.4亿元。
  • 推理性能提升:生产环境的数据最有说服力。在GLM-5.1 coding的实测中,平均推理吞吐提升超过15%,TTFT P99降低40.6%,这意味着更快的响应速度和更稳定的用户体验。
  • 超强扩展能力:基于当前主流的51.2T交换机,单平面ZCube网络即可连接16384块400Gbps的网卡。通过多平面划分,可以轻松支持数万乃至数十万GPU的互联,扩展性天花板极高。
  • 零侵入式升级:这一点对现有集群尤为重要。采用ZCube无需改动GPU硬件、驱动、AI软件栈或应用逻辑,仅仅通过网络架构层的调优,就能充分释放现有硬件潜力,升级路径平滑。

ZCube的项目地址

对技术细节感兴趣的研究者或工程师,可以访问其项目官网获取更深入的资料。

  • 项目官网:https://z.ai/blog/zcube

ZCube的同类竞品对比

为了更直观地展现ZCube的差异,我们将其与当前另一种针对大模型优化的网络架构ROFT进行对比:

对比维度 ZCube ROFT(Rail-Optimized Fat-Tree)
网络架构 扁平化二部图,取消Spine层 两层Fat-Tree,保留Spine层
网络直径 2跳 3跳
负载均衡 全局理想均衡,单路径无冲突 静态Rail映射,推理场景易失衡
拥塞控制 从架构层消除结构性拥塞 易产生局部热点和PFC反压
硬件成本 降低33%交换机和光模块 标准Clos成本
推理吞吐 提升15% 基准
TTFT P99 降低40.6% 基准
扩展规模 数万至数十万GPU 受Spine层容量限制

ZCube的应用场景

那么,哪些场景最适合ZCube大显身手呢?

  • 超大规模LLM推理集群:尤其是采用PD分离部署的千卡至万卡级推理集群,ZCube能直接解决KV Cache跨节点传输这个核心瓶颈。
  • 长上下文推理服务:处理长文本序列时,网络带宽对首Token时延和整体吞吐制约明显,ZCube的架构能有效缓解这一压力。
  • 高密度智算中心:对于同时承载训练和推理混合负载的数据中心,ZCube能提供一个高均衡、低时延、高带宽利用率的网络底座。
  • MaaS云服务平台:模型即服务平台需要兼顾成本与性能。ZCube在降低推理综合成本的同时,能显著提升多租户高并发场景下的尾时延稳定性,增强服务竞争力。
来源:https://ai-bot.cn/zcube/

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
ClawBot如何快速调整话术上线季节性促销活动

ClawBot如何快速调整话术上线季节性促销活动

节假日期间ClawBot话术切换慢,通常因专属提示词模板缺失、活动参数未注入或策略未绑定活动ID所致。可通过四步解决:配置节日专属模板并热生效;绑定活动ID与话术策略;注入实时促销参数;最后进行灰度测试与数据优化,确保话术准确高效。

时间:2026-05-23 09:49
豆包大模型推理成本优化方法与降本策略

豆包大模型推理成本优化方法与降本策略

豆包大模型部署需优化配置:批量处理应确保batch_size≥4,采用预填充与解码分离模式。移动端需手动指定量化位数,避免长上下文在轻量版运行。迁移模型须用专用工具重训路由参数,专家数量不宜过多。量化应精细化,仅针对部分计算密集模块,并禁用框架自动转换,以平衡效率与精度。

时间:2026-05-23 09:49
可灵AI制作气泡上升破裂特效详细教程

可灵AI制作气泡上升破裂特效详细教程

在可灵AI中生成气泡从液体底部升起到水面破裂的特写镜头时,若效果不佳,可尝试:将过程拆解为三个物理阶段并用精确参数描述;利用首尾帧控制并配合光学破裂指令;启用视频3 0模型并注入液体粘度、表面张力等物理参数;上传真实液体基底图并开启表面法线重建功能,以引导模型模拟真。

时间:2026-05-23 09:17
AI模特换装视频效果真实自然吗服装电商实测解析

AI模特换装视频效果真实自然吗服装电商实测解析

使用可灵AI制作服装电商换装视频时,需提供高清、姿态标准且背景简洁的原图。调整参数时应强化物理模拟与运动平滑,关闭风格化增强。复杂服装可采用分层替换与局部重绘处理。最后,引入真实动作参考视频进行微观校准,可显著提升动作自然度与布料动态真实感。

时间:2026-05-23 09:17
QoderWake数字分身动作捕捉与还原技术详解

QoderWake数字分身动作捕捉与还原技术详解

QoderWake数字分身通过五大核心技术实现动作精准捕捉与还原。基于Session账本三维锚定行为轨迹,确保可追溯与复现。Harness-First架构隔离意图与执行,保障操作安全。Critic-Refiner机制自动验证动作质量并闭环纠偏。防腐治理动态评估动作有效性,防止模板老化。Connector生态建立跨工具动作映射,确保异构系统间操作一致。这些技术

时间:2026-05-23 08:46
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程