首页科技资讯软件教程游戏攻略手机游戏

首页

科技

蚂蚁发现AGI发展新方向：突破迷雾的创新路径

蚂蚁发现AGI发展新方向：突破迷雾的创新路径

热心网友

转载

2025-09-29

来源:https://www.leiphone.com/category/ai/XerYxFFrI2S8egRR.html

01

2024年12月14日，温哥华会展中心座无虚席，ChatGPT之父Ilya现身大银幕，在全球AI顶会上，Ilya向全行业预警：

「数据压榨已然到头，如果无法突破，AGI将难以实现。」

冲破 AGI 迷雾，蚂蚁看到了一个新路标

彼时，普罗大众还沉浸一场AI盛宴中，每天睁开双眼，就能体验到各种最新迭代的大模型。但台下观众眉头紧锁，作为全球顶尖AI学者，他们早已明白这位AI之神的言外之意。

AI时代，数据犹如工业时代的化石燃料，燃料挖掘殆尽，但AGI并未涌现，大模型领域，被迫走向新秩序的边缘。

通往AGI的路上，亟需找到一些新的方向。

埃隆马斯克率先出手，2025年中，这位“第一性原理”的忠实信徒，决定开启重写人类知识库的计划。用“提纯数据”的方式，尝试打开通往AGI的大门。

冲破 AGI 迷雾，蚂蚁看到了一个新路标

另一些资深学者，则瞄准了多模态。

斯坦福大学2025春季首次公开课上，AI顶级研究者李飞飞抛出观点“视觉不仅是智能的一部分，更是智能的基石”。

不久后，众多科学家们一呼百应，逐一验证“听说读写”等等多种模态，Open AI也发布GPT-4o，大家期待模型像人类一样感知与thinking后，能带领人类瞥见AGI的大门。

但无论是马斯克的“提纯数据”论，还是多模态的尝试，都依然沿着现有的自回归（AR）路径，在做小步迭代。

业内逐渐出现另一种声音：自回归到底是不是通往AGI的唯一路径？

无人能做出确切回答，但大洋对面，早已有一群年轻学者开始尝试新范式。

2025年9月11日，上海外滩大会人潮涌动。

在年轻学者含量最高的AGI见解论坛上，蓝振忠和李崇轩官宣了LLaDA-MoE的发布。不同于市面上主流模型，这是一个基于扩散理论的新范式。

冲破 AGI 迷雾，蚂蚁看到了一个新路标

李崇轩（左）、蓝振忠发布LLaDA-MoE模型

最近一两年，AI发展迅猛却极端割裂。

曾经出现过滑稽一幕，某个大模型一边已经发展到能秒杀人类博士生和奥数金牌得主，另一边却连简单的中译英“美国总统拜登……”，都翻译错误“US President Boo-”。

这是因为AI为了追求速度，翻译时不得不“边听边猜”，但一旦开头猜错就无法收回。

出现人名截断、语义颠倒尚可接受，但AI在严肃的医疗诊断领域也时常闯祸。

明明是“左肺下叶见结节，右肺未见结节，直径12 mm”，但由于AI “失忆”属性，导致左右肺判断颠倒。这些问题的出现，让很多研究者对当前大语言模型（LLM）的方向提出质疑。

上海AI Lab的青年科学家付杰，在公开场合直言：“他不觉得当前大语言模型的路子是对的”，因为“现在这样搞出来的LLM根本不懂它为什么能输出某些答案，本质上可能还是靠记忆”，清华计算机系的崔鹏教授也曾提出质疑，LLM是否真能理解什么是“数”。

这些基本错误的出现，要归结于一个原因：底层架构。

当下主流的大模型，底层架构几乎清一色采用自回归生成范式，它的特性是单向建模。

单向建模的原理，是从前往后吐出一个个token，用上一个字预测下一个字，因为只能从左往右的局限，就导致一个严重的缺陷：

这样的大模型，既没有逆向思维，也无法提前看到事物全貌。

科学家很早就意识到这个巨大缺陷。两年前，来自英国前沿人工智能工作组、纽约大学、牛津等机构的研究小组发现：一个训练于「A是B」的语言模型，无法推理出「B是A」。

他们向大模型提问，大模型明明知道「汤姆·克鲁斯的母亲是Mary Lee Pfeiffer」，但就是无法答出「Mary Lee Pfeiffer的孩子是汤姆·克鲁斯」。

冲破 AGI 迷雾，蚂蚁看到了一个新路标

论文地址：https://owainevans.github.io/reversal_curse.pdf

这个现象被写成论文发布后，不少研究者们复现实验，并将参数从350M扩展到175B，但「AB逆转」问题依旧无法解决。

大家逐渐意识到，这是自回归范式问题，是底层架构问题。

后来，靠着堆算力、打补丁，引入深思考Deep Research模式，这个缺陷被暂时掩盖，各大模型头部厂商还是以日更周更的速度，迭代各种大模型。

02

但随着深思考模式的出现，自回归范式的缺点不仅无法掩盖，并被放到更大，蓝振忠将自回归（AR）生成范式的内在缺陷，总结为三点：

01生成速度正比于输出长度（长文本速度慢）

02缺乏双向建模能力。

03缺乏直接修正错误能力

蓝振忠从谷歌回国后，加入西湖大学，后创立西湖心辰，现担任蚂蚁通用人工智能研究中心主任、西湖大学特聘研究员。在意识到自回归内在缺陷无法解决，AGI将“撞墙”后，蓝振忠开始思考另辟蹊径。

他注意到另一个范式：扩散（Diffusion）

蓝振忠意识到，自回归模型是从左往右预测下一个字，原理是逐步的条件概率；但扩散模型是在去噪过程中逐渐逼近数据分布，在并行中由粗到细去动态修正答案。

二者区别，类似于分别一根钢笔单独画画和好几支铅笔同时画画，钢笔必须一笔画成，但在扩散模型里，你可以用多根铅笔从一个简单的草图开始,逐步添加细节，并且随时可以用橡皮修正画面。

这意味着扩散生成模型在生成端，有三个特征正好弥补了自回归生成范式的缺点。

第一，扩散模型能做到并行解码，长文本的推理迭代和算力利用率都更高效。

第二，能够双向建模的优点，让扩散模型不仅避免了翻译场景下“边听边猜”和自回归模型无法「AB逆转」的缺陷，在多种模态场景中表现也更好。

第三，扩散模型能做到迭代修正，在生成代码等场景下，能够直接部分片段错误，不需要每次都重新生成。

冲破 AGI 迷雾，蚂蚁看到了一个新路标

与此同时，在数据的预训练中，扩散模型也有不少优势。

它类似于完形填空，随机扔掉一些词，然后填空。这意味着，同一份数据，自回归只能训一两遍，但扩散语言模型可以拿掉不同的空，多次训练。

蓝振忠举了一个例子：

“比如你拿到一本书，如果只是逐字阅读下一个字，你对书本内容的理解是有限的，但是如果每次都能往回看一下，那么你对书本的理解是更深的，你能学到的东西肯定更多的。”

从生成到训练都有优点，让蓝振忠对扩散语言模型有了极大的信心。

同时关注到扩散模型优点的，还有李崇轩。

李崇轩来自高瓴人工智能学院，连续做了很多基于扩散理论的文到图、文到视频的基础研究，是扩散模型方面的知名学者。

之前，大家都以为扩散模型是用来生图的，把扩散模型用到语言上看似不可思议。但在他看来，把扩散模型和语言结合，是很自然的想法。

李崇轩告诉：扩散模型第一次提出是2015年，他一开始就关注并跟进研究，2024年，扩散模型在生图领域被证明可行后，越来越多学者和教授关注扩散模型。

冲破 AGI 迷雾，蚂蚁看到了一个新路标

“在大语言模型中，主流观点是从左到右的顺序，虽然是实际使用非常优的策略，但它的前提是不需要逆向思维，或者不需要反复打磨的情况下。”但李崇轩隐约感觉到：

“从左往右，并不一定是理论最优解。”

从理论基本准则上看，大语言模型源于生成范式，而非自回归独有，存在其他路径的可能性。

2024年，李崇轩敏锐地觉察到“把扩散模型应用到语言领域，理论上是可行的”，于是带着学生开始了深入的探索，开始尝试把扩散用到语言上。

“当时在机器学习领域里面，只有很少一部分人在做这个事情。”

2024年，OpenAI华人大牛宋飏靠着扩散模型领域的研究，火爆出圈，同一年，他的博士导师斯坦福大学Stefano Ermon教授也发了一篇关于扩散模型的论文，被业界称为扩散模型的“GPT2时刻”。

如此多顶尖学者都在关注扩散模型，让李崇轩非常兴奋，他想站在巨人的肩膀上，将扩散模型在语言方面再向前推进一步。

但要去做一个全新范式的原生大模型，对身处高校的李崇轩来说太难了。高校的算力，工程能力，数据资源等方面都非常局限。

但幸运的是，因为一些校企合作中，李崇轩跟蚂蚁集团有很多交集，校企合作结束后，双方还一直保持很好的联系。

去年以来，蚂蚁集团持续加大AGI的基础研究，在主流模型架构基础上，加强了前沿技术的实验。蓝振忠出任蚂蚁通用人工智能研究中心主任后，开启了对AGI更纯粹的探索之路。

因为把扩散模型用在语言上的想法高度重合，李崇轩和蓝振忠开始密切交流，世界线开始收缩。

蓝振忠跟(公众号：)表示：“过去我们（蚂蚁）想做这件事情，我其实一直在找这个方向非常优秀的人，李崇轩老师我们是一拍即合。”

2025年2月份，蚂蚁和高瓴人工智能学院合作推出了LLaDA模型，将扩散语言模型（dLLM）扩展至8B参数规模。

比起现在动辄千亿、万亿的模型来说，LLaDA模型大小和榜单数据远远落后，但和业界主流的自回归（AR）生成范式不同，它是一个原生的扩散语言模型。

“它意味着我们从一个非常非常迷你的原型系统，一个根本不能说话的原型系统到一个能说话的东西，其实大概一年多就走完了。”

李崇轩谈到LLaDA的诞生过程，眼神坚定，语速很快。

其实，这个从头开始训练的新范式模型，不仅“能说话”，还实现上下文学习、指令遵循，在多轮对话方面表现也不错，性能对标LLaMA 3。

LLaDA的出现，像是插在山坡上的一面旗帜，让业内无数学者看到，语言模型在自回归范式外，似乎还有别的路线走得通。

LLaDA发布之后，李崇轩和蓝振忠带着团队开始了进一步探索，几个月后，对齐能力更强的LLaDA1.5和多模态版本的LLaDA-V又先后落地。

这些自回归模型里能做到的，扩散语言模型领域也在慢慢补齐。

用李崇轩的话来说：“我们想把前期能蹚的路都蹚了，这样才能让更多优秀的人，进入到扩散语言模型。”事实上正是如此，业内越来越多人开始关注LLaDA，并把它作为基础或主干模型来进一步微调或扩展。

但“蹚路”并不容易，一个模型想要真正大规模应用，除了模态和对齐能力等，还必须要做到规模化扩展（scaling）。

经过之前无数自回归模型的验证，要做到scaling，MoE是一个必要环节。

MoE简称“混合专家模型”，是最近大模型领域的热门词汇，简单地说是让不同“专家”回答不同问题，可以在保持相似算力消耗的前提下，让模型扩容变大。

因此MoE模式，也是LLaDA做大做强的路上绕不开的难题。

MoE本身很难训，外加扩散语言模型不仅是新范式，还是基于稠密架构。

“在一个新的东西上叠加一个很难训的东西，难上加难。“

李崇轩谈到训练LLaDA-MoE的过程提到：“一旦某一行代码数据处理不对就崩了，我们前面拖了两个月，就是不收敛。”

但好在蓝振忠和李崇轩团队，吸收了诸多此前蚂蚁智能探索的经验。

在之前的训练AI架构中，蚂蚁的工程团队有很强的积累，通过自研ATorch训练框架，已经具备专家并行（EP）等一系列并行加速技术。

不久前，蚂蚁百灵大模型团队开源了自回归MoE大模型Ling2.0，在训练过程中，产生了一组20T的高质量数据。

这组数据，成了蓝振忠和李崇轩团队关键的突破口。

如此高质量的数据加持，大大加速LLaDA-MoE的研发过程。

2025年9月12日，LLaDA-MoE正式版发布。

LLaDA-MoE的总参数量为7B，激活参数量为1.4B。在约20T数据上，这个从零训练MoE架构的扩散语言模型，验证了工业级大规模训练的扩展性和稳定性。

通向AGI之路，蚂蚁踏出了新的一步。也意味着在把dLLM训扩到更大规模的路上，国内团队又往前走了一步。

在参与benchmark测试中，LLaDA-MoE不仅超越了不少开源稠密dLLM模型领域前辈，比如LLaDA1.0/1.5和Dream-7B。而且LLaDA-MoE还追平了Qwen2.5-3B。

这意味着，稠密扩散语言模型和同数量级训练的稠密自回归模型，可以坐在同一桌掰手腕了。

冲破 AGI 迷雾，蚂蚁看到了一个新路标

更重要的是，从1.4B激活参数、2倍多参数稠密模型的等效比看，LLaDA-MoE验证了一件事：

MoE架构的放大效应，在扩散语言模型上同样奏效。

这为业内在扩散语言模型的scaling上，指出了一条明亮的路。

尽管LLaDA1.0完成了从零到一，LLaDA-MoE更是里程碑般的存在，但在登山的路上，LLaDA-MoE还有太多的路要走，蓝振忠谈到LLaDA-MoE需要克服的困难，滔滔不绝。

“比如在速度上，理论上比自回归好，但现在自回归每秒能吐300个token，但扩散语言模型开源最好也只能吐50个；再比如规模上，虽然可以做到MoE了，但更大的规模怎么跑？比如我们这次还没做类似于block diffusion等等，下一次······”

03

采访尾声，李崇轩再次提到了“蹚路”，我们想把前期能蹚的路都蹚了。

“这个方向需要更多聪明的人参与进来，就像自回归模型的发展依靠了全世界的贡献，扩散语言模型的发展同样需要借助社区的力量。”

因此，LLaDA-MoE在发布的第一时间，就把基础模型版LLaDA-MoE-7B-A1B-Base和指令微调版LLaDA-MoE-7B-A1B-Instruct两个版本全部开源。

冲破 AGI 迷雾，蚂蚁看到了一个新路标

HuggingFace链接：https://huggingface.co/inclusionAI/LLaDA-MoE-7B-A1B-Base

GitHub链接：https://github.com/ML-GSAI/LLaDA

除了模型权重外，团队还将同步开源针对dLLM并行特性深度优化的推理引擎。相比NVIDIA最新fast-dLLM，该引擎实现了显著加速。

不仅如此，蚂蚁还在持续投入包括基于dLLM的AGI领域，在下一阶段，将联合学界和全球AI社区共同推动AGI新的突破。

发布会结束后，有媒体问到蓝振忠：

“听下来这是一个非常前沿的探索，蚂蚁拿出来资金和精力投入如此前沿的领域，万一未来种花得豆怎么办？”

蓝振忠这样回答：“如果不去探索那些在别人眼中可能充满风险的领域，（我们）就只能永远跟随他人已经确定的路径前进。要提升智能的上限，就不能一直follow。”

当巨兽仍在摩挲旧地图，微光已悄然改道。这是蚂蚁AGI的回答，也是一位位年轻学者的回答。冲破 AGI 迷雾，蚂蚁看到了一个新路标

原创文章，未经授权禁止转载。详情见转载须知。

上一篇：女司机车道违停睡大觉：要求休息竟停车路间

下一篇：南天门计划科幻体验馆将落地广东，2024年对外开放

免责声明

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章

Nothing Phone推送OS 4.0 Beta版：新增快捷开关及实用功能

近日，Nothing公司宣布面向旗下Phone（2）、Phone（3）及Phone（2a）系列机型推送Nothing OS 4 0 Beta版本系统更新。此次升级基于安卓16底层架构开发，重点优化了

2025-10-01.

湾流G300超中型公务机发布：替代G280+升级驾驶舱

湾流宇航公司今日正式发布全新超中型公务机Gulfstream G300，该机型将接替现役的G280成为新一代旗舰产品。这款飞机融合了多项创新技术，在航程性能、客舱舒适度及航电系统方面实现突破性升级。

2025-10-01.

滴普科技IPO备案通过，年收入达2.4亿元

10月1日消息，滴普科技日前获IPO备案，滴普科技成立于2018年，是一家企业级大模型人工智能应用解决方案提供商，滴普科技股东包括高瓴资本、五源资本、IDG等投资机构。滴普科技专注于为企业提供前沿的

2025-10-01.

小米王腾离职风波：多平台账号相继注销封禁

10月1日消息，原小米中国区市场部总经理、REDMI 品牌总经理王腾于今年 9 月被小米通报辞退，通报称“泄露公司机密信息，且存在利益冲突等严重违规违纪行为”。王腾被小米辞退后，其多个平台的账号出现

2025-10-01.

波音161吨客机戈壁坠毁，500专家90天再造运-10完成首飞

新疆戈壁滩的寒风裹挟着冰碴，在1971年的冬天划出一道道凛冽的轨迹。一架波音707客机残骸歪斜地躺在零下30度的荒漠中，扭曲的金属在阳光下泛着冷光。这堆被烈火灼烧过的废墟，即将成为中国航空工业命运的

2025-10-01.

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

相关攻略

蚂蚁开源万亿模型Ring-1T-preview，代码生成领先GPT-5 蚂蚁集团开源万亿参数AI大模型蚂蚁发现AGI发展新方向：突破迷雾的创新路径支付宝开源智能编程助手Neovate Code，助力开发者提效支付宝战略升级：两大经营主体同步更名背后的深远布局

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

摸鱼骑士羁绊系统玩法攻略：高效提升战力指南

摸鱼骑士羁绊系统玩法攻略：高效提升战力指南发布于 2025-10-01

盲盒派对新版放置挂机攻略：5个高效玩法技巧

盲盒派对新版放置挂机攻略：5个高效玩法技巧发布于 2025-10-01

梦幻西游西域宝藏副本奖励详细解析

梦幻西游西域宝藏副本奖励详细解析发布于 2025-10-01

鸣潮卡提希娅星级解析：这位角色战斗力如何？

鸣潮卡提希娅星级解析：这位角色战斗力如何？发布于 2025-10-01

英雄联盟所有人聊天开启方法

英雄联盟所有人聊天开启方法发布于 2025-10-01

索尼游戏业务遭批：分析师称公司策略正在自我毁灭

索尼游戏业务遭批：分析师称公司策略正在自我毁灭发布于 2025-10-01

Steam多地定价引争议，部分区域超美国30%

Steam多地定价引争议，部分区域超美国30% 发布于 2025-10-01

《虐杀原形》更新引发崩溃，重制版或将到来

《虐杀原形》更新引发崩溃，重制版或将到来发布于 2025-10-01

《羊蹄山》明日上市，首发补丁优化光追与性能表现

《羊蹄山》明日上市，首发补丁优化光追与性能表现发布于 2025-10-01

沙特王子Steam炫富：我收购EA了

沙特王子Steam炫富：我收购EA了发布于 2025-10-01

苹果8GB存储平价iPad原型机曝光

苹果8GB存储平价iPad原型机曝光发布于 2025-10-01

iPhone 16e设计原理图泄露：163页详析CPU与GPU架构

iPhone 16e设计原理图泄露：163页详析CPU与GPU架构发布于 2025-10-01

iOS18.7.1正式版推送：修复字体库安全漏洞

iOS18.7.1正式版推送：修复字体库安全漏洞发布于 2025-10-01

印度制造iPhone占比20%，45家供应商创造35万就业

印度制造iPhone占比20%，45家供应商创造35万就业发布于 2025-10-01

苹果开放30亿参数AI框架，赋能iOS26应用智能化

苹果开放30亿参数AI框架，赋能iOS26应用智能化发布于 2025-10-01

Windows 11 25H2新版本发布：全面解读功能升级亮点

Windows 11 25H2新版本发布：全面解读功能升级亮点发布于 2025-10-01

华硕ProArt创16 2025首发RTX 5080/5090，4TB存储售29999元

华硕ProArt创16 2025首发RTX 5080/5090，4TB存储售29999元发布于 2025-10-01

Windows 11 25H2正式版上线，多项重大优化升级

Windows 11 25H2正式版上线，多项重大优化升级发布于 2025-10-01

78000元电脑装机真相：取消费高达2万8的水分在哪

78000元电脑装机真相：取消费高达2万8的水分在哪发布于 2025-10-01

香橙派发布昇腾310迷你机，192GB内存6808元起售

香橙派发布昇腾310迷你机，192GB内存6808元起售发布于 2025-10-01

最新下载

永夜降临复苏手游

永夜降临复苏手游角色扮演 2025-10-01更新

查看

多多海洋动物游戏

多多海洋动物游戏休闲益智 2025-10-01更新

查看

茶叶蛋大冒险正

茶叶蛋大冒险正休闲益智 2025-10-01更新

查看

我的汤姆猫2手游

我的汤姆猫2手游休闲益智 2025-10-01更新

查看

我的汤姆猫2

我的汤姆猫2 休闲益智 2025-10-01更新

查看

台球帝国vivo

台球帝国vivo 体育竞技 2025-10-01更新

查看

我的汤姆猫2vivo

我的汤姆猫2vivo 休闲益智 2025-10-01更新

查看

暴走的球球

暴走的球球休闲益智 2025-10-01更新

查看

我的汤姆猫2小米

我的汤姆猫2小米休闲益智 2025-10-01更新

查看

我的汤姆猫2九游

我的汤姆猫2九游休闲益智 2025-10-01更新

查看

热门话题

魔术游戏鸣人的假期刀塔传奇饥荒拉布布游戏洛克王国神魔幻想思美人疯狂越野