当前位置: 首页
AI
OpenAI联手科技巨头推出新协议解决AI训练网络拥塞

OpenAI联手科技巨头推出新协议解决AI训练网络拥塞

热心网友 时间:2026-05-13
转载

最近,科技圈有个大动作,你可能已经听说了。由OpenAI牵头,拉上了AMD、博通、英特尔、微软和英伟达这些响当当的名字,组成了一个“全明星”联盟。他们共同发布了一项新的网络协议,目标直指一个困扰行业已久、并且随着AI算力需求爆炸而愈发棘手的老大难问题——网络拥塞。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

OpenAI 联合科技巨头推出新网络协议,破解 AI 训练拥塞难题

这个新协议有个挺直白的名字,叫“多路径可靠连接”(Multipath Reliable Connection,简称MRC)。它是为谁设计的呢?答案是那些动辄拥有超过10万块GPU的超级AI训练集群。它的核心思路其实很巧妙:与其像传统网络那样,把所有数据流量都挤在少数几条主干道上,导致动不动就“堵车”,不如把数据包同时分发到成百上千条可用的网络路径上去。这样一来,哪条路堵了或者坏了,数据流立刻就能绕道走,保证整体交通始终顺畅。

OpenAI在官方博客里把这个问题讲得很透。他们指出,网络拥塞、链路故障、设备故障,这些都是造成数据传输延迟和抖动的罪魁祸首。而且,集群规模越大,这类问题出现的频率就越高,处理起来也越麻烦。

更关键的是,在大规模AI训练这种精密作业里,哪怕只是一次短暂的网络故障,后果都可能非常严重。它可能导致整个训练任务直接崩溃,迫使系统从上一个保存的检查点重新开始,或者在网络重新计算路由的几秒钟里完全停滞。这种中断,浪费的不仅是宝贵的GPU算力,更是研发人员的时间与耐心。用OpenAI自己的话说:“我们运行的任务规模越大,任何一次链路抖动或故障所带来的影响就越大。这类工作负载本质上是一种‘故障放大器’,因此防止此类问题的发生已变得至关重要。”

MRC协议由OpenAI主导开发,其他几家巨头也贡献了各自的核心技术。整个项目由开放计算平台(OCP)联盟负责托管和协调,看得出是奔着成为行业标准去的。其中,英伟达将其Spectrum-X以太网技术整合进了MRC。目前,MRC已经在全球一些最大规模的AI训练集群中投入实际使用了,包括OpenAI自家用来训练ChatGPT和Codex等前沿大模型的集群。

此外,微软的Fairwater数据中心,以及甲骨文云基础设施(OCI)那个隶属于“星际之门”项目的Abilene数据中心,这些专为训练和部署超大模型打造的“AI工厂”,也都应用了基于Spectrum-X的MRC技术。

那么,MRC具体是怎么工作的呢?它的智能之处在于,能够在所有可用的网络路径上进行动态的负载均衡,并且实时感知并避开那些已经过载或出现问题的路径,从而始终保证GPU能以最高的效率工作。相比之下,传统网络架构在发生故障后,往往需要几秒甚至几十秒才能缓慢恢复稳定,这在分秒必争的AI训练中是不可接受的。

这种能力,确保了即便在网络出现减速、拥塞或其他意外干扰时,训练任务也能平稳进行,GPU利用率始终保持在高位。对于运维人员来说,另一个好处是管理变得简单了——他们可以通过一个统一的单一管理界面,就能对全网流量的路径进行精细化的监控和策略控制。

在架构设计上,MRC也做了精简。它的多平面网络设计,只需要两层以太网交换机,就能连接超过10万块GPU。而如果使用标准的800 Gb/s网络方案,通常需要三到四层交换机才能实现同样的规模。层数减少,意味着潜在的故障点更少,网络延迟也可能更低。

目前,MRC的规范已经通过开放计算项目(OCP)正式发布,同时附有一篇详细的学术研究论文,向整个行业开放。

Q&A

Q1:MRC协议是什么?它主要解决什么问题?

MRC(多路径可靠连接)是由OpenAI联合多家科技巨头共同开发的新型网络协议。它瞄准的是超大规模AI训练集群中的网络性能瓶颈问题,特别是拥塞和故障。通过将数据流量智能地分散到数百条并行路径上,它有效避免了传统网络中少数关键链路过载导致的延迟、抖动乃至训练中断,从而确保价值连城的GPU算力能够被持续、高效地利用。

Q2:MRC协议和传统网络方案相比有哪些优势?

对比传统方案,MRC的优势可以归纳为三点:首先是韧性更强、恢复更快。传统网络故障后恢复时间以秒甚至十秒计,而MRC能实现近乎实时的路径切换。其次是架构更简洁,连接超大规模GPU集群仅需两层网络设备,简化了部署和运维。最后是管理更集中,运维人员可以通过单一界面实现全局流量路径的精细管控,提升了运维效率。

Q3:MRC协议目前在哪些地方已经投入使用?

MRC协议并非纸上谈兵,它已经在全球最前沿的AI算力基础设施中落地。目前已知的应用包括OpenAI用于训练其旗舰大模型的内部集群,以及微软的Fairwater数据中心和甲骨文云基础设施的Abilene数据中心(后者是“星际之门”项目的一部分)。这些部署都采用了英伟达的Spectrum-X以太网技术作为硬件基础。

来源:https://ai.zhiding.cn/2026/0513/3186758.shtml

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Figma设计稿打印出血位设置指南 手动绘制辅助线与安全边距调整

Figma设计稿打印出血位设置指南 手动绘制辅助线与安全边距调整

在Figma中完成视觉设计后,若需交付专业印刷,确保文件包含正确的出血位(Bleed)至关重要。缺乏出血设置可能导致裁切后边缘留白或内容缺失,影响成品质量。尽管Figma未内置一键出血功能,但通过精准的手动设置,完全可以实现符合印刷标准的文件输出。以下将详细解析在Figma中为印刷稿添加出血位的完整

时间:2026-05-13 19:08
Canva白板多人协作配置与优化指南

Canva白板多人协作配置与优化指南

Canva的白板功能天然支持多人实时协作,这我们都知道。但如果你觉得,只要把白板链接扔进群里,就能立刻开启一场高效的头脑风暴或项目策划,那可能就有点想当然了。真正决定协作效率的,往往不是功能本身,而是那些容易被忽略的配置细节:权限怎么设、临时成员怎么加入、讨论成果如何无缝衔接到下一步执行。默认状态下

时间:2026-05-13 19:08
Karpathy力挺HTML取代Markdown 成为AI输出新标准

Karpathy力挺HTML取代Markdown 成为AI输出新标准

就在我们还在消化Anthropic工程师Thariq分享的HTML实操技巧,探索如何用它来解锁AI输出的全新形态时,一个更具影响力的声音出现了——AI领域的权威人物安德烈·卡帕西(Andrej Karpathy)公开表态,将“用HTML替代Markdown作为AI输出格式”这一话题推向了讨论的中心。

时间:2026-05-13 19:08
Google智能眼镜最新发布:功能亮点与购买指南全解析

Google智能眼镜最新发布:功能亮点与购买指南全解析

去年12月,我有幸在开发阶段提前体验了多款Google智能眼镜原型。如今,消费者距离最终的量产版本已近在咫尺。具体的发布时间和售价信息,很可能在几天后就会正式公布。 在智能眼镜领域,Meta无疑是动作最频繁的科技巨头,但它并非唯一的竞争者。Google正准备携一系列全新产品强势回归,这也是自2013

时间:2026-05-13 19:07
OpenAI联手科技巨头推出新协议解决AI训练网络拥塞

OpenAI联手科技巨头推出新协议解决AI训练网络拥塞

最近,科技圈有个大动作,你可能已经听说了。由OpenAI牵头,拉上了AMD、博通、英特尔、微软和英伟达这些响当当的名字,组成了一个“全明星”联盟。他们共同发布了一项新的网络协议,目标直指一个困扰行业已久、并且随着AI算力需求爆炸而愈发棘手的老大难问题——网络拥塞。 这个新协议有个挺直白的名字,叫“多

时间:2026-05-13 19:07
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程