蚂蚁开源首个百亿参数中文扩散模型LLaDA 2.0
12月12日消息,蚂蚁技术研究院今天正式发布了LLaDA2.0系列离散扩散大语言模型(dLLM),并同步公开了其背后的技术报告,该模型被称为“业内首个100B扩散语言模型”。
LLaDA2.0系列包含基于MoE架构的16B(mini)与100B(flash)两个版本,一举将扩散模型的参数量级首次扩展到了100B级别。
蚂蚁技术研究院表示,此次发布的模型不仅打破了业界对扩散模型难以扩展的固有印象,更在代码、数学和智能体任务上展现出了超越同级自回归(AR)模型的强大性能。
通过创新的Warmup-Stable-Decay(WSD)持续预训练策略,LLaDA2.0能够无缝继承现有自回归模型的知识,避免了从头训练带来的高昂成本。结合不限于常规SFT的、基于置信度感知并行训练(CAP)以及扩散模型版DPO,LLaDA2.0在保证生成质量的同时,充分利用了扩散模型的并行解码优势,实现了相比AR模型高达2.1倍的推理加速。这证明了在超大规模参数下,扩散模型不仅可行,而且可以更强大、更高效。

蚂蚁技术研究院从知识理解、数学、代码、推理及智能体等多个维度对模型进行了综合评估。结果显示,LLaDA2.0在结构化生成任务(如代码生成)上具有显著优势,并在其他领域与顶尖开源自回归模型实力持平。
目前,LLaDA2.0的模型权重(16B/100B)及相关训练代码已在Huggingface平台开源,具体地址如下:
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
泰坦军团战魂KG277VPLUS双模显示器27英寸4K165Hz/520Hz仅1888元
泰坦军团“战魂KG277VPLUS”27英寸显示器发售,支持4K165Hz与FHD520Hz双模切换,定价1888元。采用FastIPS面板,97%DCI-P3色域,配备升降支架及双HDMI2 1和双DP1 4接口。
苹果调价影响消费需求 2026年全球笔电出货量或降13.6%
迈入2026年,DRAM与NAND闪存的供应持续紧张及价格不断攀升,正逐步传导至终端消费市场。可以预见,下半年市场环境将更加严峻。上半年多家PC厂商已陆续上调产品定价,最终连苹果也不得不跟进,宣布提升iPad、Mac及家居设备的价格,以应对存储成本的快速上涨。 TrendForce分析指出,苹果全面
苹果iPhone 18 Pro自研C2芯片或不支持5G毫米波
苹果自研C2芯片仅支持Sub-6GHz,不支持5G毫米波。因此,美版iPhone18Pro继续采用高通基带方案以支持毫米波,而其他地区版本则搭载苹果自研C2芯片。这一差异将导致在毫米波覆盖的市场中,用户峰值速率可能显著低于美版用户。
纳睿雷达推出睿宸超精细化短时临近AI气象大模型
纳睿雷达近日释放了一项重磅成果。2026年7月1日,公司正式对外发布了两款自主研发的全新产品:一款是“WDSPT0152型”S波段全极化多功能有源相控阵雷达,另一款则是名为“睿宸”的超精细化短时临近AI气象大模型。从产品战略来看,此次发布直指气象监测与灾害预警领域的技术制高点。 先来看这款S波段雷达
南航国际创新港一期交付 四大专业园区打造空天产业强磁场
近日,南京航空航天大学与六合区深度合作的标杆项目——南航国际创新港一期正式交付投用。两个地块陆续启用,成功串联起高校科研能量、地方产业载体与市场创新主体,为南京打造全国领先的航空航天产业创新中心、助力江苏布局商业航天全产业链,提供了坚实的物理支撑。 该创新港一期位于六合区雄州街道,分为3号和4号两个
- 日榜
- 周榜
- 月榜
相关攻略
2026-07-03 12:53
2026-07-03 12:53
2026-07-03 12:53
2026-07-03 12:53
2026-07-03 12:52
2026-07-03 12:52
2026-07-03 12:52
2026-07-03 12:52
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

