挑战主流认知!蚂蚁、人大发布行业首个原生MoE扩散语言模型 将于近期开源

9月12日消息,9月11日,在2025Inclusion·外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型(dLLM)“LLaDA-MoE”。
中国人民大学高瓴人工智能学院副教授李崇轩,蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰创始人蓝振忠参与了发布仪式。
据介绍,这款新模型通过非自回归的掩码扩散机制,首次通过原生训练的MoE在大规模语言模型中实现了与Qwen2.5相当的语言智能(如上下文学习、指令遵循、代码和数学推理等),挑战了“语言模型必须自回归”的主流认知。
实现数据显示,LLaDA-MoE模型性能效果在代码、数学、Agent等任务上领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型,接近或超越了自回归模型 Qwen2.5-3B-Instruct,仅激活 1.4B 参数即可实现等效3B稠密模型的性能。
值得一提的是,据蓝振忠介绍,除模型权重外,蚂蚁还将同步开源针对 dLLM 并行特性深度优化的推理引擎。
相比 NVIDIA 最新 fast-dLLM,该引擎实现了显著加速。相关代码与技术报告将于近期在 GitHub 及 Hugging Face 社区同步发布。
据介绍,蚂蚁集团和人民大学联合研发原生MoE架构扩散语言模型(dLLM) LLaDA-MoE,在约20T数据上完成了从零训练MoE架构的扩散语言模型,验证了工业级大规模训练的扩展性和稳定性;
效果超过此前发布稠密扩散语言模型LLaDA1.0/1.5和Dream-7B,比肩等效自回归模型,并保有数倍的推理速度优势。
模型将在近期完全开源,以推动全球AI社区在dLLM上的技术发展。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
高通发布3nm旗舰芯片组,小米首发80TOPS PC处理器
高通在夏威夷举办的一场重要发布会上,正式推出三款采用3nm制程工艺的旗舰芯片,包括新一代旗舰手机SoC芯片骁龙8至尊版(骁龙8 Elite)移动平台、骁龙X2 Elite Extreme和骁龙X2
广汽华为合作启境汽车,25年老将刘嘉铭任CEO
近日,广汽集团正式对外宣布,任命刘嘉铭出任其全新品牌“启境”的首席执行官(CEO)。刘嘉铭将全面主导该品牌的战略规划、产品布局、市场开拓及日常运营管理等核心事务。据了解,刘嘉铭是一位在汽车行业深耕超
OpenAI测试GPT-5多任务系统:GPT-Alpha内测启动
据海外科技媒体披露,OpenAI近期正在对一款名为“GPT-Alpha”的新型AI智能体开展内部测试。该产品以尚未正式发布的GPT-5模型为技术底座,核心研发方向集中于强化AI的复杂推理能力和工具交
市场监管总局要求充电宝召回,保护消费者安全权益
近期,国家市场监督管理总局针对充电宝产品安全隐患问题展开专项治理行动,成立专项督导组统筹全国召回工作。目前已有深圳罗马仕科技有限公司、安克创新科技股份有限公司、小米通讯技术有限公司三家企业启动大规模
全新奔驰GLA路试曝光,二代车型换代设计亮点抢先看
梅赛德斯-奔驰近日确认将停产第二代GLA车型,这款自2019年末上市的紧凑型电动跨界车,其最新款为2026款。不过,品牌已启动新一代GLA的研发工作,原型车近期在德国公共道路测试时被多次捕捉到身影。
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















