首页
AI
华为推出准万亿参数盘古Ultra MoE模型 全流程在昇腾AI平台训练

华为推出准万亿参数盘古Ultra MoE模型 全流程在昇腾AI平台训练

热心网友
3809
转载
2025-08-05

5月30日, 华为推出全新AI模型——盘古 Ultra MoE,其参数规模高达7180亿。这一准万亿参数的MoE(Mixture of Experts)模型,全程在华为昇腾 AI 计算平台上进行训练,意味着华为在超大规模模型训练领域取得了重大突破。

盘古 Ultra MoE 的成功训练,得益于盘古团队提出的创新技术。其中,Depth-Scaled Sandwich-Norm(DSSN)稳定架构的引入,有效解决了超大规模模型训练中的梯度异常和范数波动问题。通过在每个子层输出后加入额外的层归一化,并结合深度缩放的初始化方式,DSSN架构确保了模型训练的长期稳定性。此外,TinyInit 小初始化方法,采用标准差为 (2/(d·L)) 的初始化策略,进一步优化了模型训练过程。

在训练方法上,华为团队首次披露了在昇腾 CloudMatrix 384 超节点上打通大稀疏比 MoE 强化学习(RL)后训练框架的关键技术。这一技术的突破,使得 RL 后训练正式进入超节点集群时代,为强化学习在超大规模模型中的应用奠定了基础。

在5月初发布的预训练系统加速技术基础上,华为团队在不到一个月的时间内完成了新一轮迭代升级。此次升级包括:适配昇腾硬件的自适应流水掩盖策略,进一步优化算子执行序,降低 Host-Bound,提升 EP 通信掩盖;自适应管理内存优化策略的开发;数据重排实现 DP 间 Attention 负载均衡;以及昇腾亲和的算子优化。这些技术的应用,使得万卡集群预训练 MFU(混合精度计算利用率)由30%大幅提升至41%。

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新文章

DeepMind警告马斯克:AI失控逃到火星也无解

德米斯·哈萨比斯(Demis Hassabis),是一个被谈论得不够的科技大佬。在2024年4月谷歌将DeepMind和谷歌大脑合并后,他一直都是新诞生的“谷歌DeepMind”的掌舵人,成为谷歌核

2025-08-09.
9597

亚信科技半年营收26亿:AI大模型战略助力利润增长

AI大模型爆发的时代,各行各业都迎来了革新。对于以传统业务为主的公司来说,AI的快速发展也让其迎来了转型的阵痛期。与此同时,对于通信行业来说,除了要面对AI的战略转型,5G-A时代的到来,也需要企业

2025-08-09.
5210

优必选焦继超:人形机器人效率突破,接近人类50%水平

优必选Walker S22025世界机器人大会(WRC)于8月8日-12日在北京举办。今年WRC期间,宇树科技、优必选、银河通用、傅利叶等200余家国内外优秀机器人企业将带来1500余件展品,参展企

2025-08-09.
8962

英伟达官方声明:旗下芯片无后门及监控功能

英伟达再度回应公司被约谈事件。8月6日消息,今天凌晨,英伟达通过正式发布长文《NVIDIA 芯片不存在后门、终止开关和监控软件》,作者是英伟达首席安全官大卫·雷伯 (David Reber)。英伟达

2025-08-09.
4835

傅利叶人形机器人GR-3发布:陪伴功能升级,行业增速或提升3-5倍

傅利叶GR-3人形机器人时隔不到一年,傅利叶GR系列再度更新。8月6日消息,智能机器人公司傅利叶(FOURIER)今天在北京发布首款主打交互陪伴、具备“可触摸”特性的全尺寸人形Care-bot(护理

2025-08-09.
1146

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
贴纸屋
贴纸屋 休闲益智 2025-08-06更新
查看
勇者夺旗
勇者夺旗 棋牌策略 2025-08-06更新
查看
Mechangelion
Mechangelion 动作冒险 2025-08-06更新
查看
直升机空袭
直升机空袭 飞行射击 2025-08-06更新
查看
野外求生专家
野外求生专家 休闲益智 2025-08-06更新
查看
玩具修理厂
玩具修理厂 休闲益智 2025-08-06更新
查看
像素火影次世代晓鼬
像素火影次世代晓鼬 动作冒险 2025-08-06更新
查看
少侠传说
少侠传说 动作冒险 2025-08-06更新
查看
仓鼠球
仓鼠球 休闲益智 2025-08-06更新
查看
龙战士李小龙
龙战士李小龙 动作冒险 2025-08-06更新
查看