首页
科技
蚂蚁发现AGI发展新方向:突破迷雾的创新路径

蚂蚁发现AGI发展新方向:突破迷雾的创新路径

热心网友
转载
2025-09-29
来源:https://www.leiphone.com/category/ai/XerYxFFrI2S8egRR.html


01

2024年12月14日,温哥华会展中心座无虚席,ChatGPT之父Ilya现身大银幕,在全球AI顶会上,Ilya向全行业预警:

「数据压榨已然到头,如果无法突破,AGI将难以实现。」

冲破 AGI 迷雾,蚂蚁看到了一个新路标

彼时,普罗大众还沉浸一场AI盛宴中,每天睁开双眼,就能体验到各种最新迭代的大模型。但台下观众眉头紧锁,作为全球顶尖AI学者,他们早已明白这位AI之神的言外之意。

AI时代,数据犹如工业时代的化石燃料,燃料挖掘殆尽,但AGI并未涌现,大模型领域,被迫走向新秩序的边缘。

通往AGI的路上,亟需找到一些新的方向。

埃隆马斯克率先出手,2025年中,这位“第一性原理”的忠实信徒,决定开启重写人类知识库的计划。用“提纯数据”的方式,尝试打开通往AGI的大门。

冲破 AGI 迷雾,蚂蚁看到了一个新路标

另一些资深学者,则瞄准了多模态。

斯坦福大学2025春季首次公开课上,AI顶级研究者李飞飞抛出观点“视觉不仅是智能的一部分,更是智能的基石”。

不久后,众多科学家们一呼百应,逐一验证“听说读写”等等多种模态,Open AI也发布GPT-4o,大家期待模型像人类一样感知与thinking后,能带领人类瞥见AGI的大门。

但无论是马斯克的“提纯数据”论,还是多模态的尝试,都依然沿着现有的自回归(AR)路径,在做小步迭代。

业内逐渐出现另一种声音:自回归到底是不是通往AGI的唯一路径?

无人能做出确切回答,但大洋对面,早已有一群年轻学者开始尝试新范式。

2025年9月11日,上海外滩大会人潮涌动。

在年轻学者含量最高的AGI见解论坛上,蓝振忠和李崇轩官宣了LLaDA-MoE的发布。不同于市面上主流模型,这是一个基于扩散理论的新范式。

冲破 AGI 迷雾,蚂蚁看到了一个新路标

李崇轩(左)、蓝振忠发布LLaDA-MoE模型

最近一两年,AI发展迅猛却极端割裂。

曾经出现过滑稽一幕,某个大模型一边已经发展到能秒杀人类博士生和奥数金牌得主,另一边却连简单的中译英“美国总统拜登……”,都翻译错误“US President Boo-”。

这是因为AI为了追求速度,翻译时不得不“边听边猜”,但一旦开头猜错就无法收回。

出现人名截断、语义颠倒尚可接受,但AI在严肃的医疗诊断领域也时常闯祸。

明明是“左肺下叶见结节,右肺未见结节,直径12 mm”,但由于AI “失忆”属性,导致左右肺判断颠倒。这些问题的出现,让很多研究者对当前大语言模型(LLM)的方向提出质疑。

上海AI Lab的青年科学家付杰,在公开场合直言:“他不觉得当前大语言模型的路子是对的”,因为“现在这样搞出来的LLM根本不懂它为什么能输出某些答案,本质上可能还是靠记忆”,清华计算机系的崔鹏教授也曾提出质疑,LLM是否真能理解什么是“数”。

这些基本错误的出现,要归结于一个原因:底层架构。

当下主流的大模型,底层架构几乎清一色采用自回归生成范式,它的特性是单向建模。

单向建模的原理,是从前往后吐出一个个token,用上一个字预测下一个字,因为只能从左往右的局限,就导致一个严重的缺陷:

这样的大模型,既没有逆向思维,也无法提前看到事物全貌。

科学家很早就意识到这个巨大缺陷。两年前,来自英国前沿人工智能工作组、纽约大学、牛津等机构的研究小组发现:一个训练于「A是B」的语言模型,无法推理出「B是A」。

他们向大模型提问,大模型明明知道「汤姆·克鲁斯的母亲是Mary Lee Pfeiffer」,但就是无法答出「Mary Lee Pfeiffer的孩子是汤姆·克鲁斯」。

冲破 AGI 迷雾,蚂蚁看到了一个新路标

论文地址:https://owainevans.github.io/reversal_curse.pdf

这个现象被写成论文发布后,不少研究者们复现实验,并将参数从350M扩展到175B,但「AB逆转」问题依旧无法解决。

大家逐渐意识到,这是自回归范式问题,是底层架构问题。

后来,靠着堆算力、打补丁,引入深思考Deep Research模式,这个缺陷被暂时掩盖,各大模型头部厂商还是以日更周更的速度,迭代各种大模型。



02

但随着深思考模式的出现,自回归范式的缺点不仅无法掩盖,并被放到更大,蓝振忠将自回归(AR)生成范式的内在缺陷,总结为三点:

01生成速度正比于输出长度(长文本速度慢)

02缺乏双向建模能力。

03缺乏直接修正错误能力

蓝振忠从谷歌回国后,加入西湖大学,后创立西湖心辰,现担任蚂蚁通用人工智能研究中心主任、西湖大学特聘研究员。在意识到自回归内在缺陷无法解决,AGI将“撞墙”后,蓝振忠开始思考另辟蹊径。

他注意到另一个范式:扩散(Diffusion)

蓝振忠意识到,自回归模型是从左往右预测下一个字,原理是逐步的条件概率;但扩散模型是在去噪过程中逐渐逼近数据分布,在并行中由粗到细去动态修正答案。

二者区别,类似于分别一根钢笔单独画画和好几支铅笔同时画画,钢笔必须一笔画成,但在扩散模型里,你可以用多根铅笔从一个简单的草图开始,逐步添加细节,并且随时可以用橡皮修正画面。

这意味着扩散生成模型在生成端,有三个特征正好弥补了自回归生成范式的缺点。

第一,扩散模型能做到并行解码,长文本的推理迭代和算力利用率都更高效。

第二,能够双向建模的优点,让扩散模型不仅避免了翻译场景下“边听边猜”和自回归模型无法「AB逆转」的缺陷,在多种模态场景中表现也更好。

第三,扩散模型能做到迭代修正,在生成代码等场景下,能够直接部分片段错误,不需要每次都重新生成。

冲破 AGI 迷雾,蚂蚁看到了一个新路标

与此同时,在数据的预训练中,扩散模型也有不少优势。

它类似于完形填空,随机扔掉一些词,然后填空。这意味着,同一份数据,自回归只能训一两遍,但扩散语言模型可以拿掉不同的空,多次训练。

蓝振忠举了一个例子:

“比如你拿到一本书,如果只是逐字阅读下一个字,你对书本内容的理解是有限的,但是如果每次都能往回看一下,那么你对书本的理解是更深的,你能学到的东西肯定更多的。”

从生成到训练都有优点,让蓝振忠对扩散语言模型有了极大的信心。

同时关注到扩散模型优点的,还有李崇轩。

李崇轩来自高瓴人工智能学院,连续做了很多基于扩散理论的文到图、文到视频的基础研究,是扩散模型方面的知名学者。

之前,大家都以为扩散模型是用来生图的,把扩散模型用到语言上看似不可思议。但在他看来,把扩散模型和语言结合,是很自然的想法。

李崇轩告诉:扩散模型第一次提出是2015年,他一开始就关注并跟进研究,2024年,扩散模型在生图领域被证明可行后,越来越多学者和教授关注扩散模型。

冲破 AGI 迷雾,蚂蚁看到了一个新路标

“在大语言模型中,主流观点是从左到右的顺序,虽然是实际使用非常优的策略,但它的前提是不需要逆向思维,或者不需要反复打磨的情况下。”但李崇轩隐约感觉到:

“从左往右,并不一定是理论最优解。”

从理论基本准则上看,大语言模型源于生成范式,而非自回归独有,存在其他路径的可能性。

2024年,李崇轩敏锐地觉察到“把扩散模型应用到语言领域,理论上是可行的”,于是带着学生开始了深入的探索,开始尝试把扩散用到语言上。

“当时在机器学习领域里面,只有很少一部分人在做这个事情。”

2024年,OpenAI华人大牛宋飏靠着扩散模型领域的研究,火爆出圈,同一年,他的博士导师斯坦福大学Stefano Ermon教授也发了一篇关于扩散模型的论文,被业界称为扩散模型的“GPT2时刻”。

如此多顶尖学者都在关注扩散模型,让李崇轩非常兴奋,他想站在巨人的肩膀上,将扩散模型在语言方面再向前推进一步。

但要去做一个全新范式的原生大模型,对身处高校的李崇轩来说太难了。高校的算力,工程能力,数据资源等方面都非常局限。

但幸运的是,因为一些校企合作中,李崇轩跟蚂蚁集团有很多交集,校企合作结束后,双方还一直保持很好的联系。

去年以来,蚂蚁集团持续加大AGI的基础研究,在主流模型架构基础上,加强了前沿技术的实验。蓝振忠出任蚂蚁通用人工智能研究中心主任后,开启了对AGI更纯粹的探索之路。

因为把扩散模型用在语言上的想法高度重合,李崇轩和蓝振忠开始密切交流,世界线开始收缩。

蓝振忠跟(公众号:)表示:“过去我们(蚂蚁)想做这件事情,我其实一直在找这个方向非常优秀的人,李崇轩老师我们是一拍即合。”

2025年2月份,蚂蚁和高瓴人工智能学院合作推出了LLaDA模型,将扩散语言模型(dLLM)扩展至8B参数规模。

比起现在动辄千亿、万亿的模型来说,LLaDA模型大小和榜单数据远远落后,但和业界主流的自回归(AR)生成范式不同,它是一个原生的扩散语言模型。

“它意味着我们从一个非常非常迷你的原型系统,一个根本不能说话的原型系统到一个能说话的东西,其实大概一年多就走完了。”

李崇轩谈到LLaDA的诞生过程,眼神坚定,语速很快。

其实,这个从头开始训练的新范式模型,不仅“能说话”,还实现上下文学习、指令遵循,在多轮对话方面表现也不错,性能对标LLaMA 3。

LLaDA的出现,像是插在山坡上的一面旗帜,让业内无数学者看到,语言模型在自回归范式外,似乎还有别的路线走得通。

LLaDA发布之后,李崇轩和蓝振忠带着团队开始了进一步探索,几个月后,对齐能力更强的LLaDA1.5和多模态版本的LLaDA-V又先后落地。

这些自回归模型里能做到的,扩散语言模型领域也在慢慢补齐。

用李崇轩的话来说:“我们想把前期能蹚的路都蹚了,这样才能让更多优秀的人,进入到扩散语言模型。”事实上正是如此,业内越来越多人开始关注LLaDA,并把它作为基础或主干模型来进一步微调或扩展。

但“蹚路”并不容易,一个模型想要真正大规模应用,除了模态和对齐能力等,还必须要做到规模化扩展(scaling)。

经过之前无数自回归模型的验证,要做到scaling,MoE是一个必要环节。

MoE简称“混合专家模型”,是最近大模型领域的热门词汇,简单地说是让不同“专家”回答不同问题,可以在保持相似算力消耗的前提下,让模型扩容变大。

因此MoE模式,也是LLaDA做大做强的路上绕不开的难题。

MoE本身很难训,外加扩散语言模型不仅是新范式,还是基于稠密架构。

“在一个新的东西上叠加一个很难训的东西,难上加难。“

李崇轩谈到训练LLaDA-MoE的过程提到:“一旦某一行代码数据处理不对就崩了,我们前面拖了两个月,就是不收敛。”

但好在蓝振忠和李崇轩团队,吸收了诸多此前蚂蚁智能探索的经验。

在之前的训练AI架构中,蚂蚁的工程团队有很强的积累,通过自研ATorch训练框架,已经具备专家并行(EP)等一系列并行加速技术。

不久前,蚂蚁百灵大模型团队开源了自回归MoE大模型Ling2.0,在训练过程中,产生了一组20T的高质量数据。

这组数据,成了蓝振忠和李崇轩团队关键的突破口。

如此高质量的数据加持,大大加速LLaDA-MoE的研发过程。

2025年9月12日,LLaDA-MoE正式版发布。

LLaDA-MoE的总参数量为7B,激活参数量为1.4B。在约20T数据上,这个从零训练MoE架构的扩散语言模型,验证了工业级大规模训练的扩展性和稳定性。

通向AGI之路,蚂蚁踏出了新的一步。也意味着在把dLLM训扩到更大规模的路上,国内团队又往前走了一步。

在参与benchmark测试中,LLaDA-MoE不仅超越了不少开源稠密dLLM模型领域前辈,比如LLaDA1.0/1.5和Dream-7B。而且LLaDA-MoE还追平了Qwen2.5-3B。

这意味着,稠密扩散语言模型和同数量级训练的稠密自回归模型,可以坐在同一桌掰手腕了。

冲破 AGI 迷雾,蚂蚁看到了一个新路标冲破 AGI 迷雾,蚂蚁看到了一个新路标冲破 AGI 迷雾,蚂蚁看到了一个新路标

更重要的是,从1.4B激活参数、2倍多参数稠密模型的等效比看,LLaDA-MoE验证了一件事:

MoE架构的放大效应,在扩散语言模型上同样奏效。

这为业内在扩散语言模型的scaling上,指出了一条明亮的路。

尽管LLaDA1.0完成了从零到一,LLaDA-MoE更是里程碑般的存在,但在登山的路上,LLaDA-MoE还有太多的路要走,蓝振忠谈到LLaDA-MoE需要克服的困难,滔滔不绝。

“比如在速度上,理论上比自回归好,但现在自回归每秒能吐300个token,但扩散语言模型开源最好也只能吐50个;再比如规模上,虽然可以做到MoE了,但更大的规模怎么跑?比如我们这次还没做类似于block diffusion等等,下一次······”



03

采访尾声,李崇轩再次提到了“蹚路”,我们想把前期能蹚的路都蹚了。

“这个方向需要更多聪明的人参与进来,就像自回归模型的发展依靠了全世界的贡献,扩散语言模型的发展同样需要借助社区的力量。”

因此,LLaDA-MoE在发布的第一时间,就把基础模型版LLaDA-MoE-7B-A1B-Base和指令微调版LLaDA-MoE-7B-A1B-Instruct两个版本全部开源。

冲破 AGI 迷雾,蚂蚁看到了一个新路标

HuggingFace链接:https://huggingface.co/inclusionAI/LLaDA-MoE-7B-A1B-Base

GitHub链接:https://github.com/ML-GSAI/LLaDA

除了模型权重外,团队还将同步开源针对dLLM并行特性深度优化的推理引擎。相比NVIDIA最新fast-dLLM,该引擎实现了显著加速。

不仅如此,蚂蚁还在持续投入包括基于dLLM的AGI领域,在下一阶段,将联合学界和全球AI社区共同推动AGI新的突破。

发布会结束后,有媒体问到蓝振忠:

“听下来这是一个非常前沿的探索,蚂蚁拿出来资金和精力投入如此前沿的领域,万一未来种花得豆怎么办?”

蓝振忠这样回答:“如果不去探索那些在别人眼中可能充满风险的领域,(我们)就只能永远跟随他人已经确定的路径前进。要提升智能的上限,就不能一直follow。”

当巨兽仍在摩挲旧地图,微光已悄然改道。这是蚂蚁AGI的回答,也是一位位年轻学者的回答。冲破 AGI 迷雾,蚂蚁看到了一个新路标


原创文章,未经授权禁止转载。详情见转载须知。

冲破 AGI 迷雾,蚂蚁看到了一个新路标

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章

Nothing Phone推送OS 4.0 Beta版:新增快捷开关及实用功能

近日,Nothing公司宣布面向旗下Phone(2)、Phone(3)及Phone(2a)系列机型推送Nothing OS 4 0 Beta版本系统更新。此次升级基于安卓16底层架构开发,重点优化了

2025-10-01.

湾流G300超中型公务机发布:替代G280+升级驾驶舱

湾流宇航公司今日正式发布全新超中型公务机Gulfstream G300,该机型将接替现役的G280成为新一代旗舰产品。这款飞机融合了多项创新技术,在航程性能、客舱舒适度及航电系统方面实现突破性升级。

2025-10-01.

滴普科技IPO备案通过,年收入达2.4亿元

10月1日消息,滴普科技日前获IPO备案,滴普科技成立于2018年,是一家企业级大模型人工智能应用解决方案提供商,滴普科技股东包括高瓴资本、五源资本、IDG等投资机构。滴普科技专注于为企业提供前沿的

2025-10-01.

小米王腾离职风波:多平台账号相继注销封禁

10月1日消息,原小米中国区市场部总经理、REDMI 品牌总经理王腾于今年 9 月被小米通报辞退,通报称“泄露公司机密信息,且存在利益冲突等严重违规违纪行为”。王腾被小米辞退后,其多个平台的账号出现

2025-10-01.

波音161吨客机戈壁坠毁,500专家90天再造运-10完成首飞

新疆戈壁滩的寒风裹挟着冰碴,在1971年的冬天划出一道道凛冽的轨迹。一架波音707客机残骸歪斜地躺在零下30度的荒漠中,扭曲的金属在阳光下泛着冷光。这堆被烈火灼烧过的废墟,即将成为中国航空工业命运的

2025-10-01.

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
永夜降临复苏手游
永夜降临复苏手游 角色扮演 2025-10-01更新
查看
多多海洋动物游戏
多多海洋动物游戏 休闲益智 2025-10-01更新
查看
茶叶蛋大冒险正
茶叶蛋大冒险正 休闲益智 2025-10-01更新
查看
我的汤姆猫2手游
我的汤姆猫2手游 休闲益智 2025-10-01更新
查看
我的汤姆猫2
我的汤姆猫2 休闲益智 2025-10-01更新
查看
台球帝国vivo
台球帝国vivo 体育竞技 2025-10-01更新
查看
我的汤姆猫2vivo
我的汤姆猫2vivo 休闲益智 2025-10-01更新
查看
暴走的球球
暴走的球球 休闲益智 2025-10-01更新
查看
我的汤姆猫2小米
我的汤姆猫2小米 休闲益智 2025-10-01更新
查看
我的汤姆猫2九游
我的汤姆猫2九游 休闲益智 2025-10-01更新
查看