当前位置: 首页
AI资讯
不加GPU提升15%算力:大模型网络优化技术解析

不加GPU提升15%算力:大模型网络优化技术解析

热心网友 时间:2026-05-22
转载

过去两年,整个行业在算力军备竞赛中的标准动作只有一个:买更多GPU,建更大集群,堆更高算力。

不加一块GPU,多榨出15%算力:大模型圈对网络“动刀”

但现在,这条路径正在被重新审视。

最近,智谱首次公开了一项已在生产集群中验证过的架构创新——ZCube组网架构。其中披露的一组数据颇为引人注目:GPU一张没加,服务器一台没换,连应用代码都一行没动,集群的推理吞吐量直接提升了15%,而TTFT(首Token响应时间)的P99尾延迟更是下降了40.6%。关键在于,这些数字是在真实生产流量中跑出来的,而非实验室的仿真推演。

对于一家服务上百万开发者的大模型API平台而言,这意味着同一套硬件基础设施,每秒能多扛住15%的并发请求,流量洪峰下的排队等待时间得以大幅缩短。而P99尾延迟近一半的降幅,直接决定了终端用户感知到的“卡顿感”能减少多少。

更让行业内部关注的,是成本结构的变化。根据智谱披露的信息,ZCube架构所需的交换机和光模块数量,比原有方案少了足足三分之一。规模越大,这笔节省的绝对值就越可观。在推理需求持续高增长、算力供给整体偏紧的市场环境下,这种“不动硬件、只动组网”的效率挖潜,无异于对存量算力资产进行了一次极低成本的价值重估。

不是只有智谱一家在抠算力

智谱这次公开的技术细节虽然有限,但核心逻辑已经足够清晰:当集群里数千甚至数万张GPU同时处理推理请求时,每一次KV Cache的跨卡传输、每一次数据同步,都要穿越GPU之间的互联网络。这张“路网”的效率上限,直接决定了GPU本身能发挥出多少真实算力。ZCube的思路,就是从拓扑设计上重新规划这张网,从根源上消除拥塞——而不是等堵车了再去疏导。

几乎在同一时间,另一件事让这个方向的判断有了更重的分量。OpenAI联合NVIDIA、AMD、Intel、Microsoft、Broadcom五大巨头,正式发布了MRC(多路径可靠连接)网络协议。这是一套面向超大规模AI集群的开放网络协议,目前已经部署在OpenAI所有最大规模的超算集群中,用于训练ChatGPT等前沿模型。

两件事放在一起看,指向的判断是一致的:当GPU集群从万卡级向十万卡级跃进,网络早已不是那个被动的“连接件”,而是制约整体效率的核心变量。

不过,它们的技术路径截然不同。MRC是在协议层优化“交通规则”;而ZCube则是在架构层重构“路网”——从拓扑设计上消除拥塞产生的结构性根源。一软一硬,可谓殊途同归。

如果把视野拉开,会发现“不堆硬件、从基础设施和系统架构里挖效率”这件事,正在逐渐成为行业一个微妙的转向。

从硬件侧看,NVIDIA最新一代Blackwell Ultra架构,通过NVFP4精度格式和注意力层加速,在特定推理任务上的吞吐量达到了基础版的数倍。Google推出的第七代TPU Ironwood,单芯片训练推理性能也比前代有数倍提升。

从芯片创业公司看,一批专门为推理设计的非GPU架构也在加速渗透。主攻超低延迟的Groq,其LPU在Llama 2 70B上跑出了每秒300个token的速度,比H100集群快10倍。晶圆级芯片公司Cerebras则声称,其推理速度在多项测试中超越了NVIDIA Blackwell。

从模型架构本身看,通义千问的Qwen3-Next通过混合注意力机制和高稀疏MoE设计,将训练成本压缩到此前的十分之一以下,推理上下文吞吐量提升超10倍。DeepSeek推出的稀疏注意力技术,使得新版模型长文本推理速度比前代快2到3倍,API调用成本几乎砍半。

这些探索有一个共同特征:它们都不再依赖“买更多卡”这个唯一的杠杆,而是在现有算力存量和有限新增投入中,寻找更大的产出倍数。

当“买卡”不再是唯一答案

这场从“堆硬件”向“挖效率”的转向,正在对上游供应链产生实质影响。

最直接的变量来自网络设备端。ZCube方案实现交换机与光模块用量减少三分之一,MRC协议推动两层交换机组网替代传统三到四层架构——两者叠加,意味着AI集群的采购逻辑将发生结构性调整:对高端交换机的需求将从“更多层级”转向“更少层级、更大端口密度”,光模块则加速向800G及以上速率集中。

事实上,市场数据已经在验证这个趋势。据LightCounting统计,2025年800G光模块出货量同比翻倍,1.6T光模块开始出货;预计2026年800G出货量将继续翻倍,1.6T将从2025年的小基数跃升至数千万端口量级。

从资本市场的视角看,AI网络基础设施正在从万卡集群的“配套工程”,升级为产业链的核心价值环节。有机构预测,2026年数据中心交换机总销售额将同比增长86%。谷歌、亚马逊、微软和Meta四大云厂商2026年合计资本支出计划高达数千亿美元。叠加MRC协议推动以太网在超算集群中加速替代InfiniBand的长期趋势,800G/1.6T光模块产业链、高密度以太网交换机及相关芯片、连接器环节,正在进入一个需求结构重塑的窗口期。

北京计算机学会AI专委会秘书长、北京大学特聘研究员张有鱼指出,把时间轴拉长来看,智谱这次公开的ZCube实践,放在行业大背景中有两层含义。

第一层是技术层面的,它用真实生产数据验证了一件事——在千卡乃至万卡集群中,网络架构本身可以成为一个独立的效率杠杆,且边际改造成本极低。当全行业都在GPU采购上投入巨资时,这种“四两拨千斤”的效率挖潜,显然比再下一笔芯片订单更具性价比。

第二层是商业层面的,对于手握大量GPU存量的平台型公司,硬件折旧是固定成本,谁能从既有资产中榨出更多Token产出,谁就能在API价格持续下探的市场里拉大成本优势。智谱实现的15%吞吐提升和三分之一的网络硬件节省,放在百万级并发请求的规模下,对应的是一笔相当可观的运营成本优化。

来源:https://36kr.com/p/3820132079505792

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Trae在Python数据分析与机器学习项目中的实际应用评测

Trae在Python数据分析与机器学习项目中的实际应用评测

Trae在Python数据分析与机器学习项目中主要通过四种方式提供支持:利用Auto模式自动生成并执行端到端分析脚本;通过AgentCLI命令行自动化机器学习建模流程;对现有代码进行智能调试与优化;借助语音交互快速构建数据处理函数。这些功能覆盖了从需求描述到代码生成、模型构建及代码优化的全流程。

时间:2026-05-23 07:05
吉利银河星耀7 MAX四驱版上市 售价10.88万起性能解析

吉利银河星耀7 MAX四驱版上市 售价10.88万起性能解析

吉利银河星耀7正式上市,共五款配置,售价10 88万元起。新车定位中型SUV,提供MAX四驱版本,搭载e-AWD智电四驱系统,零百加速5 4秒。设计延续“涟漪美学”,配备发光格栅与贯穿式尾灯。内饰采用环抱式座舱,配备智慧中岛扶手与Eva车载机器人。智能驾驶方面搭载千里浩瀚H3方案,支持高速NOA与自动泊车功能。

时间:2026-05-23 07:05
AI视频教程:如何制作镜头推进效果

AI视频教程:如何制作镜头推进效果

在即梦AI中实现镜头推进效果,可通过慢推模板或手动运镜控制来设置轨道距离与速度。结合运动笔刷可增强局部动态,利用分镜与预设指令库能优化节奏与效率。需注意主体描述明确,参数匹配画面比例。

时间:2026-05-23 06:33
通义万象制作壁纸与头像的图片效果实测

通义万象制作壁纸与头像的图片效果实测

通义万相生成图像时,主体模糊、比例失调等问题多因指令不精准。优化方法包括:严格按“主体-特征-场景-风格-参数”五要素构建清晰提示词,细节越具体效果越可控;生成前根据用途手动设定正确画幅比例,避免拉伸或裁切,确保成品直接可用。

时间:2026-05-23 06:03
Qoder新手入门教程:从零开始创建第一个全栈项目

Qoder新手入门教程:从零开始创建第一个全栈项目

Qoder平台为新手提供了三种创建首个项目的方式。通过浏览器访问云端工作台,可直接用自然语言描述需求并快速生成完整项目。使用QoderCLI工具可在本地终端通过命令交互,生成并初始化项目。安装QoderIDE客户端则能在深度定制的开发环境中,打开并智能编辑已有项目文件。

时间:2026-05-22 22:29
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程