蚂蚁开源首个百亿参数中文扩散模型LLaDA 2.0
12月12日消息,蚂蚁技术研究院今天正式发布了LLaDA2.0系列离散扩散大语言模型(dLLM),并同步公开了其背后的技术报告,该模型被称为“业内首个100B扩散语言模型”。
LLaDA2.0系列包含基于MoE架构的16B(mini)与100B(flash)两个版本,一举将扩散模型的参数量级首次扩展到了100B级别。
蚂蚁技术研究院表示,此次发布的模型不仅打破了业界对扩散模型难以扩展的固有印象,更在代码、数学和智能体任务上展现出了超越同级自回归(AR)模型的强大性能。
通过创新的Warmup-Stable-Decay(WSD)持续预训练策略,LLaDA2.0能够无缝继承现有自回归模型的知识,避免了从头训练带来的高昂成本。结合不限于常规SFT的、基于置信度感知并行训练(CAP)以及扩散模型版DPO,LLaDA2.0在保证生成质量的同时,充分利用了扩散模型的并行解码优势,实现了相比AR模型高达2.1倍的推理加速。这证明了在超大规模参数下,扩散模型不仅可行,而且可以更强大、更高效。

蚂蚁技术研究院从知识理解、数学、代码、推理及智能体等多个维度对模型进行了综合评估。结果显示,LLaDA2.0在结构化生成任务(如代码生成)上具有显著优势,并在其他领域与顶尖开源自回归模型实力持平。
目前,LLaDA2.0的模型权重(16B/100B)及相关训练代码已在Huggingface平台开源,具体地址如下:
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
2026年618大促AI全场景应用深度解析与产业观察
2026年618大促将全面融合AI技术,覆盖全场景与产业链。平台通过持续研发,将AI应用于零售、物流、健康及工业等数千场景,旨在提升产业效率与消费体验。以“附身智能”JoyInside为代表的AI能力正接入超千万台智能设备。京东在AI基础设施层面已构建全栈产品矩阵及多个垂直模型,研发投入大幅增长。
AI训练数据选择难题破解智能配方秤精准筛选方案
字节跳动与加州大学提出InfoLaw框架,解决大模型因重复使用高质量数据导致的性能下降问题。该框架量化数据信息获取量,结合质量、重复次数与模型规模等因素,建立预测性能的统一曲线,可主动搜索最优数据混合比例,提升训练数据利用效率。
AI视觉识别模糊的原因与解决方法
2026年5月提出的MoCam采用分阶段新视角合成方法:早期利用粗糙点云确定布局,后期切换至原始视频修正错误并补充细节。该方法解决了传统方式中几何与外观冲突导致的画面模糊问题,在静态与动态场景中均提升了生成质量与控制精度,为影视、虚拟现实等领域提供了新思路。
芯片AI与智慧家电三企同步启动港股招股
5月18日,港股市场迎来新股集中招股。云英谷科技、深演智能和华曦达三家公司同步启动招股,分别聚焦显示驱动芯片、AI营销与智慧家庭产品,申购均于21日截止。同日,翼菲科技上市首日大涨,龙丰集团通过港交所聆讯。
腾讯吐司与蚂蚁灵光对比评测普通人如何选择AI应用开发工具
腾讯“吐司”与蚂蚁“灵光”均主打AI生成应用,但路径不同。吐司能打包生成APK文件,实现真正安装,过程耗时较长;灵光生成HTML页面,速度更快但依赖平台运行。两者均降低了应用制作门槛,适合生成简单工具,但面临分发挑战,且无法满足专业开发需求。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

