当前位置: 首页
AI资讯
智谱ZCube颠覆传统组网技术 同等GPU性能提升15%

智谱ZCube颠覆传统组网技术 同等GPU性能提升15%

热心网友 时间:2026-05-21
转载

AI发展的历程,至今仍带着一股野蛮生长的气息:在这个阶段,规模似乎就是一切。

推翻二十年组网逻辑,智谱落地ZCube,让同样的GPU多干15%的活

这条路确实被证明是有效的。从千卡到万卡,算力规模的每一次跃升,都直接支撑了大模型从GPT-4到DeepSeek V4、GLM-5的持续进化与性能狂飙。

然而,一个现实问题常常被忽略:当GPU硬件的规模膨胀到一定程度时,将这些算力单元连接起来的网络链路,就不再是一个可以忽略不计的“常量”,而是一个决定整体性能上限的关键“变量”。

2026年5月5日,OpenAI联合NVIDIA、AMD、Intel、Microsoft、Broadcom五家巨头,通过开放计算项目(OCP)向全行业发布了MRC(Multipath Reliable Connection)协议。这是一种专为超大规模AI集群设计的网络传输协议,目前已部署在OpenAI最大的NVIDIA GB200超算集群中,用于训练ChatGPT等前沿模型。

MRC的核心思路在于,将数据传输分散到数百条路径上并发进行,并能在微秒级时间内绕过链路故障,旨在从根本上解决大规模GPU集群的网络通信瓶颈。

几乎在同一时间,另一条重要的技术路线也取得了突破性进展。智谱率先在其GLM-5.1线上生产集群中,完成了新一代组网架构ZCube的规模化落地。

ZCube架构曾发表于网络领域顶会ACM SIGCOMM 2025,并被评价为“significantly change the way we think about and understand networking”(显著改变整个行业对网络的认知方式)。此次是该项技术首次大规模运用于生产推理集群,由智谱联合驭驯网络共同负责网络架构的升级与优化,组网架构优化基于锐捷网络交换机实现。

在新一代组网架构下,集群在不新增任何GPU、不修改任何应用代码的前提下,实现了三项关键指标的提升:推理吞吐提升了15%,首Token响应的尾延迟(TTFT P99)下降了40.6%,交换机与光模块的硬件成本减少了三分之一。

不加一块GPU,算力瞬间多出15%。这或许揭示了一个正在发生的趋势:在单纯扩大GPU规模之外,网络,已经成为超大规模AI基础设施的下一个主战场。

ZCube技术解读:从架构层面消除拥塞

推理时代的流量,和训练时代截然不同

传统互联网时代的数据中心流量,其特点是“统计均匀”的。因此,业界普遍采用的Fat-Tree/Clos架构正是基于这一假设设计的:通过多层交换机的堆叠来扩展规模,并依赖ECMP(等价多路径路由)在多条路径间分配流量,这套方案在过去效果显著。AI训练集群也基本沿用了这套架构,因为训练阶段的通信模式相对固定和规整。

然而,大模型推理带来了一种全新的流量范式。随着Prefill(处理用户输入上下文)与Decode(逐Token生成输出)分离部署成为主流,集群内部的数据传输呈现出高度的动态不对称性。Prefill节点处理长短不一的输入上下文,Decode节点则负责持续生成Token,两类节点之间需要频繁传递KV Cache。不同请求的上下文长度差异可达数十倍,处理时间随之剧烈变化,导致KV Cache数据在GPU之间的流向几乎毫无规律可循。

在采用传统ROFT架构的集群中,这种源-目的不对称性导致同一台机器上不同网卡承担的KV Cache传输负载差异巨大。这使得ROFT架构中的rail映射不再天然等价于负载均衡,反而容易将流量集中推向少数几台Leaf交换机和链路上,形成局部热点。

问题的根源在于,Clos/ROFT架构对推理流量产生了一类特殊的拥塞。智谱在技术报告中将其明确区分为两类:

  • 不可避免的拥塞:例如多个GPU同时向同一目的地发送数据,在最后一跳链路上必然产生竞争。这类拥塞由物理规律决定,通常依赖拥塞控制、流量整形等协议层机制来缓解。
  • 可避免的拥塞:由拓扑结构和流量映射方式导致。流量被拓扑关系天然地推向同几台交换机和同几条链路,即使总带宽充足,也会形成局部瓶颈。某些Leaf交换机的部分出口队列深度持续高位,频繁触发PFC(Priority Flow Control)反压,进一步将拥塞从局部扩散到整条链路,从而放大尾时延、压低整体吞吐。这类拥塞的本质是架构设计问题,仅靠调参和协议优化无法根治。

过去,业界应对网络拥塞的主流思路集中在协议层:无论是自适应路由、包喷洒,还是OpenAI刚发布的MRC,本质上都是在拥塞发生后进行补救或绕行。

而ZCube选择了一条不同的路:从架构层面,直接消除第二类“可避免拥塞”产生的根源,让它“不该发生的就不发生”。

ZCube的三重设计逻辑

从组网架构图来看,ZCube打破了Clos架构中层次化堆叠交换机的传统思路,采用了一种完全扁平化的GPU服务器互联方式。

第一层:取消分层,全网扁平化。传统Clos架构由Spine层和Leaf层组成,数据在GPU之间传输需要“上行到Spine,再下行到Leaf”,跨层转发本身就会引入额外延迟和拥塞风险。ZCube取消了Spine层交换机,将所有Leaf交换机按序号奇偶分为两组,两组之间采用完全二部图互联(即每台奇数交换机与所有偶数交换机相连)。这意味着全网任意两台GPU之间,仅需经过两台交换机即可互达,网络直径固定为2跳。这个设计巧妙地介于单层交换机组网(1跳,但规模受限)和双层Clos(3跳,延迟较高)之间。

第二层:单轨+多轨混合接入,实现理想负载均衡。这是ZCube设计中最精妙的部分。每张GPU网卡拥有两个端口,分别以两种截然不同的方式接入两组交换机:第一个端口采用“多轨”方式,即相同编号的GPU连接到同一台奇数交换机;第二个端口采用“单轨”方式,即连续编号的GPU连接到同一台偶数交换机。

这种“一张网卡,两种接法”的拓扑设计,带来了一个关键特性:全网任意两张GPU之间有且仅有一条最优路径。多路径选路是传统架构拥塞的重要来源,因为多条路径意味着负载均衡策略需要做选择,而选择就可能出错,导致流量集中。ZCube用唯一的确定性路径,彻底消除了这一不确定性。

说得更直白些:在ROFT架构下那些会在交换机之间发生冲突、“堵车”的流量,在ZCube架构下可以独享整条网络路径。

第三层:更低成本,更强扩展性,更高容错。ZCube在实现性能提升的同时,反而降低了硬件成本。由于取消了Spine层,在构建相同规模的集群时,ZCube比Clos/ROFT架构大约能减少三分之一的交换机和光模块数量。

在扩展性方面,ZCube同样表现出色。以当前主流的400Gb/s网络配置计算,ZCube仅用一层交换机即可构建连接16384张GPU的扁平网络。而传统ROFT架构要实现同等规模,需要三层交换机。如果采用下一代102.4Tbps交换机和四端口ConnectX-8网卡,ZCube可支持的GPU规模更可达65536张

容错性方面也有优势。由于ZCube全网GPU之间不存在硬性隔离平面,在给定链路故障率下,任意一对GPU之间通信路径不可达的概率,比传统双平面Clos网络要低50%以上。

可以这样类比:传统Clos架构像一座复杂的多层立交桥系统,车流需要频繁上下匝道,高峰期特定匝道必然拥堵,且立交桥的某一层出故障会影响大量通行。而ZCube则像一张经过精密数学优化的平面路网,每辆车都有一条唯一且最短的路径直达目的地,任何路段的车流量都被预先均匀分摊,从规划层面就消除了拥堵发生的条件。

实验验证:同样的硬件,多出15%的算力

ZCube真正引人注目的地方在于,它已经在智谱千卡级的GLM-5.1 coding推理集群中,完成了完整的生产环境验证

实验设置非常清晰,只改变一个变量:将集群的传统ROFT架构替换为ZCube架构。GPU型号、软件栈、业务代码均保持不变。结果如下:

  • 推理吞吐提升15%以上:同样的硬件投入,每秒能多响应15%的API请求。
  • TTFT P99下降40.6%:首Token响应的尾延迟大幅降低,用户体验更流畅。
  • 交换机与光模块成本减少三分之一:据估算,在万卡规模集群中,仅网络硬件一项即可节省投资约2.1亿至6.4亿元。

更关键的是,这项升级的边际成本极低,纯粹是组网架构的替换。在GPU供应持续紧张、价格居高不下的当下,一种不依赖额外硬件堆叠就能显著提升系统整体效率的方案,其产业价值不言而喻。

AI基础设施的价值重心正在迁移

将ZCube的落地与OpenAI MRC协议的发布,放在2026年AI基础设施的大背景下审视,会发现它们共同指向一个更深层的行业拐点:AI基础设施的价值重心,正在从单纯的“算力”获取,向“系统效率”的极致挖掘迁移。

核心逻辑:让已有的GPU跑得更好

过去三年,大模型公司的基础设施策略可以用一个字概括:买。抢GPU、抢算力卡、抢机柜、甚至抢能源。这套逻辑在模型从零到一的阶段是成立的,算力规模直接决定了能训练多大的模型、能支撑多少用户。

但到了现阶段,这个逻辑开始遇到明显的阻力。

首先,GPU的供应仍然紧张。尽管英伟达持续扩产,但需求的增速远超供给,尤其是高端推理卡的交付周期依然以季度计。其次,算力采购的经济模型正在恶化。GPU价格居高不下,而大模型API的定价竞争日趋激烈,Token单价持续走低,毛利空间被两端挤压。最后,单纯堆叠GPU的边际收益在递减。当集群规模从千卡扩展到万卡,新增GPU的算力并不能被线性释放,网络、存储等系统瓶颈会愈发突出。

在这一趋势下,OpenAI的MRC和智谱的ZCube,恰好代表了协议层和架构层两条互补的技术路径。两者高度协同,当推理集群规模继续向十万卡甚至更大规模演进时,这种“架构层无拥塞设计 + 协议层强容错机制”的组合,或许将成为超大规模AI集群的标配。

产业链的结构性变化

回顾历史,英伟达在2019年以69亿美元收购Mellanox,将InfiniBand技术纳入其AI算力版图。此后,数据中心网络市场几乎被InfiniBand垄断了AI场景的高端需求。

然而,当行业发展进入新阶段,多重力量正在打破这一格局。

一方面,超以太网联盟(UEC)标准快速推进,正从协议层面为以太网补齐AI场景所需的低延迟和高可靠能力。另一方面,据TrendForce研究报告,全球AI专用光收发模块市场已进入高速成长期,预计将从2025年的165亿美元增至2026年的260亿美元,增幅超过57%。国金证券研报也指出,随着推理需求驱动算力从通用GPU向专用ASIC演进,ASIC芯片在网络接口设计上天然倾向于采用开放的以太网标准,这也在推动网络架构从专有协议向开放标准迁移。

ZCube的出现,进一步加速了这一进程。它对交换机层级的要求从传统的三层降低到了一层,对高端Spine交换机的依赖大幅降低,转而对Leaf交换机的端口密度提出了更高要求。

这意味着,未来AI集群组网的采购逻辑将发生结构性变化:需求从“少量高端交换机 + 大量中端交换机”的金字塔结构,转向“大量高密度交换机 + 更高速光模块”的扁平化结构。

尾声

网络架构创新的投入产出比,可能远超大多数人的直觉。

在GPU价格高企、算力供给偏紧的大环境下,多数公司的注意力仍然集中在“如何获得更多GPU”上。但ZCube用真实的生产数据证明,在GPU资源不变的前提下,纯粹通过网络架构的升级,就能释放出15%的额外有效算力,同时节省三分之一的网络硬件成本。如果将这一比例外推到万卡甚至十万卡规模,网络优化所释放的价值将远超一般认知。

网络瓶颈还有一个被广泛低估的特性:它会随着集群规模呈指数级加剧。集群规模翻倍,GPU间通信的复杂度和拥塞发生的概率及影响,可能会增长数倍。这意味着,像ZCube这类架构级创新的价值,将随着推理集群的持续扩张而加速显现。

对于正在加速扩建AI基础设施的云厂商、模型公司与智算中心而言,现在或许是一个重新审视组网方案的关键时刻。AI算力竞赛的下半场,胜负手可能就取决于那张“看不见的网”。

来源:https://www.jiqizhixin.com/articles/2026-05-21-3

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
可灵AI制作气泡上升破裂特效详细教程

可灵AI制作气泡上升破裂特效详细教程

在可灵AI中生成气泡从液体底部升起到水面破裂的特写镜头时,若效果不佳,可尝试:将过程拆解为三个物理阶段并用精确参数描述;利用首尾帧控制并配合光学破裂指令;启用视频3 0模型并注入液体粘度、表面张力等物理参数;上传真实液体基底图并开启表面法线重建功能,以引导模型模拟真。

时间:2026-05-23 09:17
AI模特换装视频效果真实自然吗服装电商实测解析

AI模特换装视频效果真实自然吗服装电商实测解析

使用可灵AI制作服装电商换装视频时,需提供高清、姿态标准且背景简洁的原图。调整参数时应强化物理模拟与运动平滑,关闭风格化增强。复杂服装可采用分层替换与局部重绘处理。最后,引入真实动作参考视频进行微观校准,可显著提升动作自然度与布料动态真实感。

时间:2026-05-23 09:17
QoderWake数字分身动作捕捉与还原技术详解

QoderWake数字分身动作捕捉与还原技术详解

QoderWake数字分身通过五大核心技术实现动作精准捕捉与还原。基于Session账本三维锚定行为轨迹,确保可追溯与复现。Harness-First架构隔离意图与执行,保障操作安全。Critic-Refiner机制自动验证动作质量并闭环纠偏。防腐治理动态评估动作有效性,防止模板老化。Connector生态建立跨工具动作映射,确保异构系统间操作一致。这些技术

时间:2026-05-23 08:46
简历工作经历优化技巧 AI助你告别流水账式写法

简历工作经历优化技巧 AI助你告别流水账式写法

简历应避免流水账式经历和空洞评价。工作经历需用“动词+成果+数据”结构突出价值,如具体增长或性能提升数据。自我评价应基于事实,清晰展示核心优势与证明。AI工具可辅助优化结构,但关键数据、业务背景及岗位匹配逻辑需自行把控,核心在于用结果和证据展现个人价值。

时间:2026-05-23 08:45
阿里云发布全栈芯片路线图 平头哥真武M890性能提升三倍

阿里云发布全栈芯片路线图 平头哥真武M890性能提升三倍

阿里云推出平头哥新一代AI芯片真武M890,配备144GB显存,算力性能达上一代3倍,支撑智能体高频模型调用。该芯片已实战验证,未来将推出后续型号。平头哥坚持软硬一体策略,通义千问大模型在其上自主运行并实现性能提升,阿里云目标以此扩大AI市场份额。

时间:2026-05-23 08:43
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程