当前位置: 首页
AI
谷歌分布式训练开启另一轮扩展定律!百万芯片高压高故障仍然零全局停机

谷歌分布式训练开启另一轮扩展定律!百万芯片高压高故障仍然零全局停机

热心网友 时间:2026-04-30
转载

谷歌最新名为Decoupled DiLoCo的研究,直接把这种锁步模式扔进了历史博物馆

如今训练最先进的大语言模型,存在一个听起来颇为荒谬的常态。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

不妨想象一下:一支由上万名抄写员组成的团队,正在共同誊写一部巨著。所有人必须步调一致,每写一个字,就要互相核对一次,确保笔迹完全相同。只要其中一人打了个喷嚏,慢了半拍,整个誊写工作就得停下来等他。

而谷歌最新一项名为Decoupled DiLoCo的研究,正是将这种“锁步”模式彻底送进了历史博物馆。

它的核心思路是,让一个庞大集群里的不同部分可以“各干各的”,再通过一种极其聪明的方式进行异步汇合。最令人惊叹的成果在于,当模拟数百万芯片在频繁故障的高压环境下训练时,这套系统实现了零全局停机时间,而模型的最终性能却丝毫未打折扣。

解构锁步的困境

当前的大模型训练,普遍采用一种称为SPMD(单程序多数据流)的范式。你可以将其理解为一个极其庞大且严苛的方阵,所有计算芯片必须保持完全一致的步调。

这种对参数一致性的绝对执念,让整个系统变得异常脆弱。一块问题芯片、一次微小的网络抖动,都足以让这个价值数亿美元的庞大集群陷入停滞。

研究团队采用了一个非常有趣的视角,类比计算机科学中的CAP定理,来重新审视模型训练的瓶颈。他们认为,传统的SPMD训练堪称“一致性原教旨主义者”——为了确保每块芯片看到的模型参数都分毫不差,不惜牺牲系统的可用性和分区容错性。

然而,在成千上万块芯片需要协同工作数月的现实场景中,硬件故障几乎如同家常便饭。每一次故障都意味着停机、等待、恢复和巨大的算力浪费,这就像一个繁忙的国际机场,仅仅因为一盏信号灯故障,就不得不关闭所有跑道。

破局之道,正是Decoupled DiLoCo。

图片

其思路简单而优雅:将铁板一块的大集群,拆分成若干个独立运作的小团队,每个团队被称为一个“学习者”。每个学习者都拥有完整的模型副本,可以在自己的数据分区上埋头训练,互不干扰。即便某个学习者遭遇硬件崩溃,其他学习者的工作也完全不受影响。

协调这些学习者的重任,则落在一个名为“同步器”的中央节点身上。但这位“调度员”从不要求所有人立正站好。它会按照预设的时间节奏,随机地向所有正在工作的学习者发出邀约,收集它们训练好的模型参数更新。关键在于,它只等待达到一个最低数量的学习者响应,就能完成一次全局参数的优化与合并。那些因为故障或网络延迟而“迟到”的学习者,会被暂时跳过,等待下一次同步机会。整个过程,训练从未停歇。

这种设计带来了实实在在的收益。一项模拟数据揭示了惊人的对比:假设单个芯片平均一年出一次故障,在一个由240万块芯片组成的庞大集群中,没有弹性功能的常规数据并行训练,系统有效工作时间仅为18%。即便加入了动态调整功能,有效工作时间也仅能提升至40%。

而当切换到Decoupled DiLoCo,并将集群拆分为16个独立学习者时,系统有效工作时间飙升至86%,系统无故障运行的时间占比更是保持了近乎完美的99%。

图片

优雅的混沌工程实验

为了验证这套框架的真正鲁棒性,研究团队做了一件很酷的事情:他们在代码中模拟了一个“修罗场”,通过混沌工程的原则,人为地注入各种故障。他们设定了故障发生的频率、恢复时间,甚至芯片处理速度的随机波动,以此来考验系统的极限。

结果令人振奋。

在一个包含8个学习者、模拟120万块芯片、故障环境极其恶劣的实验中,Decoupled DiLoCo的系统有效工作时间保持在88%,而同样条件下的传统训练模式仅有58%。

更关键的是,在应对这些混乱的同时,模型在文本和视觉任务上的最终表现,与那些在完美无故障环境下训练出的模型,依然保持了同等水平。在一个50亿参数的密集模型上,无论是平均文本得分还是视觉得分,其变化几乎可以忽略不计。

这意味着,训练团队不再需要面临“牺牲模型质量换取稳定性”或“牺牲稳定性换取质量”的艰难抉择。现在,他们可以同时拥有两者。

捡拾算力与异构硬件大一统

这种解耦架构还释放了两个令人兴奋的额外红利。

第一个是“算力撷取”。大规模训练集群的利用率很少能一直保持100%。例如,一些即将被抢占的云计算资源,或者分布在不同地理位置的闲置硬件,都可能出现临时可用的算力窗口。Decoupled DiLoCo可以像一个灵活的智能插线板,随时接入这些临时可用的算力,将其作为新的学习者加入训练。

论文展示了一个实验:当可用算力在训练过程中动态增加了300%时,模型训练不仅没有崩溃,总训练时间反而被压缩到了原来的62%,且最终性能与基线模型持平。

相比之下,传统数据并行模式由于沉重的状态传输和同步开销,在这种动态扩缩容的场景下,所能获得的时间收益要小得多。

第二个红利是“异构计算大一统”。不同代际、不同型号的芯片可以无缝地加入同一个训练任务。在一次实验中,研究者混合使用了两种不同型号的TPU,即使它们之间的处理速度存在接近20%的天然差异,通过Decoupled DiLoCo和一个聪明的自适应等待机制,系统依然能够高效运转,模型的最终效果与纯同步设置下的结果无异。

这为企业平滑过渡到新硬件,或者充分利用现有的旧硬件库存,打开了充满想象力的新空间。

上图清晰地展示了在不同同步策略下,运行速度不一的学习者们的忙碌状态。第一行是保守的“等待全部学习者到齐”模式,产生了大量空闲时间。第二行是激进的“不等待”模式,虽然忙碌,但同步过于零碎,效率不高。第三行则是论文采用的自适应策略,它在不造成无谓等待的前提下,尽可能地汇集了更多学习者的贡献,达成了效率与模型质量的绝佳平衡。

规模定律依然有效

一个始终悬在分布式训练方案头上的疑问是:这种松耦合的设计,会损害模型的最终能力吗?尤其是在模型规模和训练数据量都急剧增大的前沿探索中。

答案是否定的。论文系统地验证了从20亿到90亿参数的密集模型,以及28亿和38亿激活参数的混合专家模型。在所有模型尺度上,Decoupled DiLoCo都取得了与传统同步数据并行训练相匹配的下游任务性能。无论是对文本理解的平均得分,还是对图表、文档等多模态内容的理解能力,其差异均处在可忽略的范围内。

这项研究直接挑战了“同步是必须的”这一默认前提。它用一个极简的、异步的、对故障极度友好的系统设计,证明了一个关键观点:在大规模AI训练中,我们可以通过牺牲一些无关紧要的、瞬时的一致性,来换取更为宝贵的系统可用性和硬件容错性。

当AI训练的规模持续向物理极限扩张,当硬件集群的异构性和地理分布性日益成为常态,这种从追求“全局绝对一致”转向拥抱“局部独立、异步协同”的设计理念,很可能将成为新一代AI基础设施设计的基石。

若将大规模AI训练比作一场马拉松,那么与其让一个万人方阵踢着正步、艰难且脆弱地走向终点,不如让每个小队跑出自己的节奏与效率,最终在终点前完成一次精彩而稳健的智慧汇合。

来源:https://www.51cto.com/article/842039.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
传统智驾遇瓶颈:规则局限难突破,端到端大模型成车企新赛道焦点

传统智驾遇瓶颈:规则局限难突破,端到端大模型成车企新赛道焦点

智能驾驶技术正以惊人的速度重塑汽车行业格局 从实验室里的前沿概念,到如今量产车上越来越常见的功能,智能驾驶这条赛道,已经彻底从图纸跑进了现实,成了各家车企寸土必争的核心战场。就在普通消费者还在纠结“辅助驾驶到底靠不靠谱”的时候,行业内部早已暗流涌动,掀起了一场静悄悄的技术革命——端到端大模型,正以一

时间:2026-04-30 11:00
硬核技术赋能出行新体验 吉利中国星i-HEV智擎混动双车引领混动新风潮

硬核技术赋能出行新体验 吉利中国星i-HEV智擎混动双车引领混动新风潮

吉利中国星i-HEV智擎混动系列双车上市,燃油车正式迈入“2升”时代 就在杭州,吉利中国星i-HEV智擎混动系列的两款重磅车型——星瑞i-HEV与星越L i-HEV正式登陆市场。这不仅仅是一次新车发布,更是一个明确的信号:中国燃油车的“2升”油耗时代,已经由我们自己的技术拉开了序幕。星瑞i-HEV限

时间:2026-04-30 11:00
Qlient- 美容院和水疗中心的人工智能接待员

Qlient- 美容院和水疗中心的人工智能接待员

什么是Qlient AI? 在美容和水疗行业,前台电话接待是个技术活,更是门艺术。客人的每一通来电,都可能直接转化为一次预约。那么,有没有一种方案,既能确保不错过任何商机,又能让对话体验足够专业和自然?这正是Qlient AI想要解决的问题。 简单来说,Qlient是一款专为美容院和水疗中心量身打造

时间:2026-04-30 10:34
PayGenie- 基于人工智能的发票工具

PayGenie- 基于人工智能的发票工具

在繁复的企业运营中,发票处理常被视为一项耗时却不可或缺的“必要之恶”。有没有一种方式,能将它从繁琐的行政工作中解脱出来,甚至转化为洞察财务健康的利器?这正是我们今天要探讨的工具所试图解答的问题。 什么是EliteInvoice? 简单来说,EliteInvoice是一款旨在彻底改变发票工作流的智能工

时间:2026-04-30 10:33
Sawal AI- 基于人工智能的语音助手

Sawal AI- 基于人工智能的语音助手

什么是Sawal AI? 有没有想过,如果能有个助理替你处理所有繁琐的预约安排,会是什么感觉?Sawal AI做的就是这件事。它本质上是一个智能语音助手,核心目标就是用人工智能的力量,把预约预定这件事变得无比简单。说白了,它通过自动化整个调度流程,不仅帮企业减少了爽约率,更重要的是,大幅提升了客户从

时间:2026-04-30 10:33
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程