首页
科技
挑战主流认知!蚂蚁、人大在2025外滩大会发布行业首个原生MoE扩散语言模型

挑战主流认知!蚂蚁、人大在2025外滩大会发布行业首个原生MoE扩散语言模型

热心网友
转载
2025-09-12
来源:https://www.leiphone.com/category/industrynews/I9smFO0azXGskj3z.html

蚂蚁集团和人民大学联合研发原生MoE架构扩散语言模型(dLLM) LLaDA-MoE,在约20T数据上完成了从零训练MoE架构的扩散语言模型,验证了工业级大规模训练的扩展性和稳定性;效果超过此前发布稠密扩散语言模型LLaDA1.0/1.5和Dream-7B,比肩等效自回归模型,并保有数倍的推理速度优势。模型将在近期完全开源,以推动全球AI社区在dLLM上的技术发展。

9月11日,在2025Inclusion·外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型(dLLM)“LLaDA-MoE”,中国人民大学高瓴人工智能学院副教授李崇轩,蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰创始人蓝振忠参与了发布仪式。

挑战主流认知!蚂蚁、人大在2025外滩大会发布行业首个原生MoE扩散语言模型

(中国人民大学、蚂蚁集团联合发布首个MoE架构扩散模型LLaDA-MoE)

据介绍,这款新模型通过非自回归的掩码扩散机制,首次通过原生训练的MoE在大规模语言模型中实现了与Qwen2.5相当的语言智能(如上下文学习、指令遵循、代码和数学推理等),挑战了“语言模型必须自回归”的主流认知。

实现数据显示,LLaDA-MoE模型性能效果在代码、数学、Agent等任务上领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型,接近或超越了自回归模型 Qwen2.5-3B-Instruct,仅激活 1.4B 参数即可实现等效3B稠密模型的性能。

挑战主流认知!蚂蚁、人大在2025外滩大会发布行业首个原生MoE扩散语言模型

(LLaDA-MoE性能表现)

“LLaDA-MoE模型验证了工业级大规模训练的扩展性和稳定性,意味我们在把dLLM训扩到更大规模的路上又往前走了一步。”蓝振忠在发布现场表示。

中国人民大学高瓴人工智能学院副教授李崇轩介绍,“两年过去,AI大模型能力突飞猛进,但存在一些问题始终没有得到本质上的解决。究其原因,这是当前大模型普遍采用的自回归生成范式所造成的——模型天然是单向建模的,从前往后依次生成下一个token。这导致它们难以捕tokens之间的双向依赖关系。”

面对这些问题,一些研究者选择另辟蹊径,将目光投向并行解码的扩散语言模型。然而,现有 dLLM 均基于稠密架构,难以复刻 ARM 中 MoE 的“参数扩展、计算高效”优势。在这样的行业背景下,蚂蚁和人大联合研究团队,首次在MoE架构上推出了原生的扩散语言模型LLaDA-MoE。

蓝振忠还表示,“我们将于近期向全球完全开源模型权重和自研推理框架,与社区共同推动 AGI 新一轮突破。”

据了解,蚂蚁与人大团队攻关3个月,在LLaDA-1.0基础上重写训练代码,并且基于蚂蚁自研分布式框架 ATorch提供EP 并行等一系列并行加速技术,基于蚂蚁Ling2.0基础模型的训练数据,在负载均衡、噪声采样漂移等核心难题上取得突破,最终采用 7B-A1B(总7B、激活1.4B)的MOE架构完成约 20T 数据的高效训练。

在蚂蚁自研的统一评测框架下,LLaDA-MoE 在 HumanEval、MBPP、GSM8K、MATH、IFEval、BFCL 等 17项基准上平均提升 8.4%,领先 LLaDA-1.5达到13.2%,与 Qwen2.5-3B-Instruct 打平。实验再次验证“MoE 放大器”定律在 dLLM 领域同样成立,为后续 10B–100B 稀疏模型提供可行路径。

据蓝振忠介绍,除模型权重外,蚂蚁还将同步开源针对 dLLM 并行特性深度优化的推理引擎。相比 NVIDIA 最新 fast-dLLM,该引擎实现了显著加速。相关代码与技术报告将于近期在 GitHub 及 Hugging Face 社区同步发布。

蓝振忠还透露,蚂蚁将持续投入包括基于dLLM的AGI领域,下一阶段将联合学界和全球AI社区共同推动AGI新的突破。“自回归不是终点,扩散模型同样可以成为通向 AGI 的主干道。”蓝振忠如是说。


免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章

中国车企首度部署阿里云AI全栈解决方案

AI和汽车行业正在加速融合。记者从2025云栖大会获悉,阿里云全栈AI已支撑全部中国车企。在激烈的智能汽车产业竞争中,AI已经成为中国汽车厂商构建全球竞争力的关键。中国一汽、比亚迪、吉利、蔚来、小鹏

2025-09-26.

华硕Z890/B860主板限时免费领取两款精品游戏

【】本周EPIC免费游戏如期而至,这次为玩家送来了两款游戏,分别是《乔雷尔的兄弟和银河系最重要的游戏》和《斩妖行》,感兴趣的玩家可以前往平台领取。其中

2025-09-26.

深圳家装补贴超200万人领取,天猫最受欢迎消费平台

近日,深圳市住房和建设局2025年深圳住宅装修改造物品和材料购置补贴活动(以下简称“深圳家装补贴活动”)反响热烈。天猫数据显示,此次活动惠及消费者超200万人次,带动品牌成交同比双位数增长,天猫成此

2025-09-26.

"人造太阳"加速推进:合肥聚变堆机械臂助力商业化发电

在安徽合肥滨湖科学城,一座承载人类能源梦想的“人造太阳”装置正在加速建设。这座名为“聚变堆主机关键系统综合研究设施”的科研工程,并非简单模拟太阳本体,而是通过核聚变反应模拟装置,为人类探索清洁能源开

2025-09-26.

江阴"男装大王"赴港IPO,290亿服装巨头启程

服装巨头们回归主业的决心,愈发强烈。三四年前,男装巨头雅戈尔开始剥离投资、地产,并将集团更名为“雅戈尔时尚股份有限公司”,面对“中年”的考验,雅戈尔创始人李如成表示,“有段时间好像放弃了梦想,想着的

2025-09-26.

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
三国杀OL互通
三国杀OL互通 棋牌策略 2025-09-26更新
查看
三国战纪2正
三国战纪2正 飞行射击 2025-09-26更新
查看
三国杀OL互通
三国杀OL互通 棋牌策略 2025-09-26更新
查看
无悔华夏oppo
无悔华夏oppo 棋牌策略 2025-09-26更新
查看
无悔华夏应用宝
无悔华夏应用宝 棋牌策略 2025-09-26更新
查看
无悔华夏b服
无悔华夏b服 棋牌策略 2025-09-26更新
查看
热血美职篮
热血美职篮 体育竞技 2025-09-26更新
查看
弹壳特攻队九游
弹壳特攻队九游 飞行射击 2025-09-26更新
查看
我叫MT
我叫MT 卡牌桌游 2025-09-26更新
查看
NBA巅峰对决正
NBA巅峰对决正 体育竞技 2025-09-26更新
查看