何恺明发布首个语言模型 105M参数突破自回归框架
何恺明,这位计算机视觉领域的标志性人物,这次将目光投向了语言模型。不过,他带领团队探索的,并非当下如ChatGPT所采用、基于“预测下一个词元”的自回归范式。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
他们选择的,是一条在过去几年图像生成领域大放异彩,如今正被越来越多研究者引入文本生成的新路径:扩散语言模型。
在其团队的最新论文中,一个名为“ELF:Embedded Language Flows”的全新连续扩散语言模型被提出。

与许多仍在词元(token)层面进行扩散的语言模型不同,ELF将整个生成过程都置于连续的嵌入(embedding)空间中进行,直到最后一步,才重新离散化,将表示变回词元。
正是凭借这一设计,ELF仅用1.05亿参数、450亿训练词元、32步采样,就在多项指标上正面超越了一批主流的扩散语言模型。
最直观的一项成果是,在OpenWebText数据集上,它将生成困惑度压到了24。这个指标可以理解为,让一个强大的语言模型为生成结果“打分”,数值越低,意味着生成文本的质量越高、越接近人类自然语言。
在与同类模型的对比中,ELF在训练词元少近10倍、采样步数更少的情况下,反而取得了更低的生成困惑度。

可以说,在过去很长一段时间里,扩散语言模型的主要进展都集中在离散路线。而ELF首次有力地证明:连续的方法,不仅可行,而且效果出众。
ELF到底做了什么
要理解ELF的创新,首先得厘清当前扩散语言模型的两条主流技术路线。
一派是以MDLM、Duo为代表的“离散派”,直接在离散的词元空间进行扩散。另一派则是“连续派”,如Diffusion-LM、CDCD等,它们先将词元映射为连续的嵌入向量,然后在连续空间中进行去噪。

此前,离散路线似乎更受青睐,原因看似不言而喻:语言本身就是离散的。然而,何恺明团队提出了一个反向的洞见——问题或许不在于“语言必须离散”,而在于前人并未将“连续”路线贯彻到底。
早期的连续方法,如Diffusion-LM,虽然在嵌入空间去噪,但每一步仍需计算词元级别的交叉熵损失,相当于将连续的生成轨迹始终“拴”在离散的词表上。后来的LD4LG、Cosmos等潜在扩散模型,去噪过程连续了,却需要额外训练一个解码器将潜在表示转换回词元,引入了新的模块。
ELF的思路则更为彻底:它将所有的去噪过程,完全保留在连续的嵌入空间内;直到最终时刻(t=1),才一次性映射回离散词元。

具体而言,在训练阶段,离散词元先被编码成连续嵌入,再加噪形成带噪表示。模型的任务,要么是将其还原为干净的嵌入(使用均方误差损失),要么直接预测词元(使用交叉熵损失)。

在推理生成时,模型从高斯噪声出发,全程在连续空间中进行去噪。直到最后一步,才切换到解码模式,将最终的嵌入表示投射回词元。
ELF首次清晰地将“连续表示”与“离散输出”这两个过去常被纠缠处理的问题拆解开来:中间的去噪过程完全交给连续空间自由演化;最终的语言生成,则仅作为最后一步的离散化操作。
这种设计,既避免了每一步都强行向词表对齐所带来的约束,也无需引入额外的解码器模块。整个流程真正实现了“连续的归连续,离散的归离散”。而这,正是ELF能够以更少的采样步数和训练数据,取得更优效果的关键所在。
ELF不是“先扩散,再解码”
在具体实现上,ELF系统地解决了三个核心问题:词元如何变为连续表示?在连续空间中如何有效去噪?最后又如何变回词元?
把token变成连续embedding
应用连续扩散于语言生成,第一步是将离散的词元序列转化为连续的向量表示。ELF默认采用预训练的T5编码器来生成具有上下文信息的双向嵌入。值得注意的是,这个编码器仅在训练阶段使用,推理时不会增加额外计算负担。
在连续embedding空间里做Flow Matching
获得连续表示后,ELF在嵌入空间中执行流匹配。简单来说,流匹配定义了一条从噪声数据到干净数据的平滑轨迹:起点是高斯噪声,终点是目标嵌入,中间状态是两者的线性插值。
与传统直接预测“速度场”的做法不同,ELF沿用了团队此前在《Back to Basics》论文中的思路——直接预测干净的嵌入本身。其训练目标是最小化预测嵌入与真实嵌入之间的均方误差。

采用这种“x-预测”方式有两个主要原因:其一,它在高维嵌入空间(如768维或更高)中表现更稳定;其二,它天然地与最终“预测干净词元”的目标对齐。实验也表明,若采用速度场预测并共享权重,模型性能会显著下降。

从连续embedding,再回到离散token
语言生成的最终输出必须是离散词元。因此,ELF在最后一个时间步,需要将连续的嵌入表示映射回词元空间。
巧妙的是,ELF并未像许多潜在扩散模型那样训练一个独立的解码器。它将最后一步视作一次“连续到离散的解码”,而这个解码器与前面的去噪器,其实是同一个神经网络。
为了确保最后一步的训练不至于太简单(因为此时输入已非常接近干净嵌入),ELF在最后一步额外引入了一次词元级别的扰动,构造出带噪声的输入。随后,同一个网络输出干净嵌入,再通过一个可学习的反嵌入矩阵投影为词元逻辑值。训练目标则是标准的词元级交叉熵损失。整个网络共享参数,并通过一个二值的模式标记来区分“去噪模式”与“解码模式”。
推理时,模型从噪声开始连续去噪,直至最后一步切换模式并输出最终词元。此外,ELF还将图像生成中常用的“无分类器引导”技术适配了过来,利用自条件信号来提升生成质量。
实验对比
实验部分,ELF有力地回答了一个悬而未决的问题:连续扩散语言模型,究竟竞争力如何?结果表明,它不仅在质量上能打,更在速度与训练成本上实现了多重优势。
如前所述,在OpenWebText的文本生成任务中,ELF仅用32步采样,在不进行蒸馏的情况下,就将生成困惑度降至24。而许多主流离散扩散模型往往需要运行1024步才能达到相近水平。

更值得注意的是,ELF达成这一结果所使用的训练词元量仅为450亿,而同类模型通常需要5000亿以上。这意味着,它在采样效率和训练数据需求上都减少了一个数量级,效果却更优。
在条件生成任务上,ELF同样表现稳健。无论是在WMT14机器翻译还是XSum文本摘要任务中,它都稳定超越了现有的扩散语言模型,甚至优于部分自回归基线模型。

论文总结颇为克制:ELF在生成质量、采样效率和训练成本之间,实现了出色的权衡。用更直白的话说就是:连续派路线并非天生劣势,只是此前未能将“连续”的理念执行得如此彻底。
作者介绍
这篇论文有两位共同第一作者,贡献顺序由抛硬币决定。
胡珂雅,MIT EECS一年级博士生,是何恺明在MIT指导的首批博士生之一,由何恺明与Jacob Andreas联合指导。她本科毕业于上海交通大学ACM班,研究兴趣聚焦于语言与视觉的交叉领域,致力于构建数据效率更高、泛化能力更强的智能体。在何恺明MIT的主页上,她位列研究生名单首位。

另一位第一作者Linlu Qiu,同为MIT博士生,师从Yoon Kim教授。她本科毕业于香港大学,硕士毕业于佐治亚理工学院,曾在谷歌担任AI研究员。值得一提的是,这并非她首次与何恺明团队合作,不久前他们共同完成的论文《ARC Is a Vision Problem!》已被CVPR 2026接收。

作者Hanhong Zhao(赵瀚宏)为MIT本科生,高中就读于中国人民大学附属中学,曾获国际物理奥林匹克竞赛金牌。

作者陆伊炀,现为清华大学姚班大二学生,目前在MIT CSAIL实验室实习,导师为何恺明,研究方向为计算机视觉与深度生成模型。高中时期他是物理竞赛生,曾获全国中学生物理竞赛金牌,此前也已以一作身份与何恺明合作发表论文。

核心作者黎天鸿,是何恺明课题组的博士后。他本科毕业于清华姚班,博士毕业于MIT,半年前那篇重要的《Back to Basics: Let Denoising Generative Models Denoise》论文的第一作者正是他。

论文的其他作者还包括MIT EECS的两位教授Yoon Kim、Jacob Andreas,以及何恺明本人。
参考链接:[1]https://arxiv.org/pdf/2605.10938
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
零跑联手欧洲车企投产低价纯电SUV 剑指大众途观
欧洲电动汽车市场正经历一场由“中国智造”引领的深刻变革。5月12日,一则重磅合作消息引发行业聚焦:Stellantis集团与零跑汽车宣布深化战略伙伴关系,计划于2028年在欧洲市场推出一款全新的高性价比纯电动SUV。 这款新车将由Stellantis旗下的沃克斯豪尔(Vauxhall)品牌负责销售,
15岁男孩故意撞伤女子被指惯犯 当事人表示将坚决起诉
近日,江西南昌发生的一起恶性事件引发社会广泛关注。一名15岁男孩在街头蓄意加速,从背后猛烈冲撞一名毫无防备的25岁女子,导致对方当场摔倒受伤。事发后,肇事男孩迅速逃离现场,行为性质恶劣。 受害者陈女士随即报警,并通过网络发布视频寻找肇事者。5月11日,南昌警方发布通报,表示已锁定涉事男孩张某某(15
大疆无人机有哪些竞争对手与替代选择
商业世界历来遵循着丛林法则,每一片充满机遇的蓝海市场,总会迅速吸引众多竞争者的目光。 将时间拨回2015年,当时因公司事务与美国方面产生摩擦的大疆创始人汪滔,罕见地接受了外媒采访。当福布斯记者询问大疆的竞争对手时,他提及了极飞和零度智控。如今回望,这些昔日的无人机领域伙伴,早已被大疆远远甩在身后。
盐言故事联合50余家机构加速IP影视化 错嫁有喜成古装短剧热度冠军
在原创IP孵化领域,盐言故事已成为业界备受瞩目的重要平台。这家专注于培育原创故事内容的服务商,目前已与超过五十家专业短剧制作公司达成深度版权合作,成功搭建起从文字创作到影视改编的高效转化通道。 进入2026年,平台旗下优质IP的影视化进程全面提速,多部改编作品密集上线并收获积极市场反馈。其中,根据平
京东工业2026年第一季度业绩报告 营收566亿元同比增长25.3%
2026年第一季度,京东工业业绩表现强劲,收入与利润双双实现高增长。报告期内,公司总收入达56 6亿元,同比增长25 3%;非国际财务报告准则利润为2 3亿元,同比大幅攀升54 4%。这一亮眼成绩的背后,京东工业自研的工业大模型JoyIndustrial功不可没。其全链路的创新应用与深度落地,正持续
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

