华为推出准万亿参数盘古Ultra MoE模型 全流程在昇腾AI平台训练

5月30日, 华为推出全新AI模型——盘古 Ultra MoE,其参数规模高达7180亿。这一准万亿参数的MoE(Mixture of Experts)模型,全程在华为昇腾 AI 计算平台上进行训练,意味着华为在超大规模模型训练领域取得了重大突破。
盘古 Ultra MoE 的成功训练,得益于盘古团队提出的创新技术。其中,Depth-Scaled Sandwich-Norm(DSSN)稳定架构的引入,有效解决了超大规模模型训练中的梯度异常和范数波动问题。通过在每个子层输出后加入额外的层归一化,并结合深度缩放的初始化方式,DSSN架构确保了模型训练的长期稳定性。此外,TinyInit 小初始化方法,采用标准差为 (2/(d·L)) 的初始化策略,进一步优化了模型训练过程。
在训练方法上,华为团队首次披露了在昇腾 CloudMatrix 384 超节点上打通大稀疏比 MoE 强化学习(RL)后训练框架的关键技术。这一技术的突破,使得 RL 后训练正式进入超节点集群时代,为强化学习在超大规模模型中的应用奠定了基础。
在5月初发布的预训练系统加速技术基础上,华为团队在不到一个月的时间内完成了新一轮迭代升级。此次升级包括:适配昇腾硬件的自适应流水掩盖策略,进一步优化算子执行序,降低 Host-Bound,提升 EP 通信掩盖;自适应管理内存优化策略的开发;数据重排实现 DP 间 Attention 负载均衡;以及昇腾亲和的算子优化。这些技术的应用,使得万卡集群预训练 MFU(混合精度计算利用率)由30%大幅提升至41%。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
最新文章
DeepMind警告马斯克:AI失控逃到火星也无解
德米斯·哈萨比斯(Demis Hassabis),是一个被谈论得不够的科技大佬。在2024年4月谷歌将DeepMind和谷歌大脑合并后,他一直都是新诞生的“谷歌DeepMind”的掌舵人,成为谷歌核
亚信科技半年营收26亿:AI大模型战略助力利润增长
AI大模型爆发的时代,各行各业都迎来了革新。对于以传统业务为主的公司来说,AI的快速发展也让其迎来了转型的阵痛期。与此同时,对于通信行业来说,除了要面对AI的战略转型,5G-A时代的到来,也需要企业
优必选焦继超:人形机器人效率突破,接近人类50%水平
优必选Walker S22025世界机器人大会(WRC)于8月8日-12日在北京举办。今年WRC期间,宇树科技、优必选、银河通用、傅利叶等200余家国内外优秀机器人企业将带来1500余件展品,参展企
英伟达官方声明:旗下芯片无后门及监控功能
英伟达再度回应公司被约谈事件。8月6日消息,今天凌晨,英伟达通过正式发布长文《NVIDIA 芯片不存在后门、终止开关和监控软件》,作者是英伟达首席安全官大卫·雷伯 (David Reber)。英伟达
傅利叶人形机器人GR-3发布:陪伴功能升级,行业增速或提升3-5倍
傅利叶GR-3人形机器人时隔不到一年,傅利叶GR系列再度更新。8月6日消息,智能机器人公司傅利叶(FOURIER)今天在北京发布首款主打交互陪伴、具备“可触摸”特性的全尺寸人形Care-bot(护理
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















