中国移动智算实现万卡长周期稳定训练,技术已达领先水平

10月14日最新消息,人民邮电报今日发布报道称,中国移动成功实现智算万卡池在长周期训练场景下的持久稳定运行,训练稳定性已达到全球行业标杆水准。这一突破标志着我国在超大规模智算集群管控领域迈入领先地位,攻克了大型算力集群调度、高可靠通信保障及智能化故障诊断与快速自愈等多个业界长期面临的难题。
报道指出,随着人工智能技术进入爆发式增长阶段,大模型参数量正从千亿向万亿级别跃升,由此对智算基础设施的算力密度、长期稳定性以及协同效能提出了更严苛的要求。万卡级规模的协同训练场景目前已成为全球范围内普遍面临的智算集群稳定性挑战。
中国移动依托哈尔滨数据中心智算集群,牵头构建了全调度以太网(GSE)技术体系,研发了慢卡慢网络风险识别、断点续训机制与AI运维智能体等创新技术,成功突破了超大规模智算基础设施建设与运行中的关键技术瓶颈。在研究过程中,团队围绕三大核心难题展开重点攻关:
创新性地推出了慢卡慢网络风险识别技术,实现对典型故障场景的全面感知,显著提升诊断准确率
研发的断点续训机制,在故障节点被自动隔离后可实现训练状态分钟级回滚,使硬件故障导致的训练中断量下降50%
引入AI运维智能体,通过多层架构日志分析系统达成分钟级故障定界,覆盖25类软硬件故障解决方案,将故障处置时长从数天压缩至分钟级
据人民邮电报透露,这一稳定运行能力直接使大模型训练周期缩短近三分之一,资源利用率逼近100%,为人工智能技术的工业化量产打下坚实基础,有力支撑自动驾驶、生物医药、新材料研发等前沿领域的持续创新。与此同时,中国移动已在黑龙江、广东等地建设了智算运维示范中心。
值得一提的是,在10月11日举行的2025中国移动全球合作伙伴大会主论坛上,中国移动正式发布了“AI+”行动计划升级版,明确提出到2028年底将持续加大在人工智能领域的投入,总体投入规模将实现翻倍增长,建成国内规模最大、技术领先的智算基础设施,并计划探索十万卡级别智算集群建设,实现全国产智能算力规模突破100 EFLOPS。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
上海智能终端产业冲刺2027:AI计算机与机器人引领3000亿市场
上海市经济和信息化委员会近日发布了《上海市智能终端产业高质量发展行动方案(2026—2027年)》,为智能终端产业未来发展描绘了宏伟蓝图。该方案明确提出,到2027年,上海市智能终端产业规模将突破3
上海智能终端产业冲刺2027:AI计算机与机器人迎3000亿机遇
近日,上海市经济和信息化委员会正式发布了《上海市智能终端产业高质量发展行动方案(2026—2027年)》,为推动本地智能终端产业迈向全球领先地位制定了一系列具体目标。根据方案,到2027年,上海智能
智能系统10大核心功能解析:助力企业高效实现智能化转型
在当今数字化转型的浪潮中,智能系统已成为企业提升竞争力的关键工具。其核心在于一系列功能模块的协同运作,这些模块不仅优化了内部流程,还为用户带来了更高效的体验。从智能对话到数据分析,每个模块都在推动企
2025东湖论坛:湖北机器人天团炫技,诺奖得主见证科技人文融合
当诺贝尔化学奖得主本杰明·李斯特步入2025东湖论坛会场时,一场跨越传统与未来的音乐对话正等待着他。左侧,一台身着黑色外壳的机器人端坐钢琴前,指尖在琴键上精准跃动;右侧,名为 "海百合 "的扬琴机器人以
OpenAI携手沃尔玛:用ChatGPT重塑AI购物体验
据美联社最新消息,全球知名人工智能企业OpenAI与零售业巨头沃尔玛达成了一项创新合作。双方计划通过技术整合,使消费者能够在ChatGPT聊天界面中直接完成购物流程,这一举措标志着OpenAI正加速
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















