何恺明团队发布嵌入式语言流ELF新模型
「语言是离散的,但语言模型不一定是。」这句话,恰好点出了当前大语言模型研究的一个有趣分野。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
去年,一个名为LLaDA的项目在AI圈内激起了不小的波澜。它基于「掩码扩散」原理,宣称在多项基准测试中,其性能足以与同规模的自回归大模型(即GPT这类逐字生成的模型)相媲美。这一下子,让原本略显小众的扩散语言模型(Diffusion Language Model, DLM)研究,走到了更多人的聚光灯下。
问题在于,文字本质上是离散的token序列,而扩散模型最初是为处理连续数据(如图像)而设计的。这种「先天不合」,使得视觉生成领域的主流技术,很难直接套用在语言模型上。
LLaDA证明了扩散路径的可行性之后,各路研究团队纷纷跟进。大家逐渐形成一个共识:扩散模型在文本生成上潜力巨大。它天生支持并行解码,理论上生成速度可以远超逐字输出的自回归模型。同时,它也更容易实现「填空」、「双向修改」等对自回归模型来说颇为棘手的任务。
目前,研究者主要沿着两条技术路线探索:
- 离散扩散语言模型(Discrete DLM):直接在token的离散空间里定义扩散过程。例如,用MASK遮盖token再逐步还原,或者将token向均匀分布扩散再逐步修正。这条路近年来是主流,效果也相对更好。
- 连续扩散语言模型(Continuous DLM):先将token映射到连续的嵌入向量空间,在连续空间里完成去噪,最后再转换回token。这条路理论上更优雅,但实际效果长期落后于离散方法。
而最近,何恺明团队发表的一篇新论文,恰恰选择了那条更困难的后者路线。
他们提出的模型名为ELF(Embedded Language Flows,嵌入式语言流),其核心思路可以用一句话概括:让扩散过程全程在连续的向量空间中进行,直到最后一步,才将结果「翻译」乘人类可读的词语。

论文共一作者Linlu Qiu在社交媒体上分享了这一成果。
令人惊讶的是,实验结果显示,这个思路不仅可行,效果还出奇地好:仅用了不到其他方法十分之一的训练数据,其生成质量就已经实现了全面领先。

论文标题:ELF: Embedded Language Flows
何恺明的答案:只在最后一步变成词
这篇论文来自MIT的一支八人团队,通讯作者是计算机视觉领域的标志性人物——何恺明。对于深度学习领域的研究者而言,这个名字意味着重量级的工作。2015年,他提出的残差网络(ResNet)解决了深层网络训练的梯度消失难题,其影响至今深远,残差连接的结构几乎渗透到所有现代AI系统中。2024年,他加入MIT后,开始系统性地探索生成模型的前沿。

业内对何恺明新工作的关注度一向很高。

而ELF,可以说是这支团队在语言生成方向上一次颇具巧思的尝试。他们的想法很直接:既然扩散模型最擅长在连续空间里工作,何不让它从头到尾都待在这个舒适区,直到终点才进行一次「转码」?
具体来说,ELF的工作流程分为三步:
首先,通过一个预训练好的编码器(论文中使用了T5编码器),将一句话中的每个词转换为包含上下文语义的「语境嵌入」向量。这一步,离散的文字被投射到了一个高维的连续空间。
接着,采用近年来在图像生成中表现优异的「流匹配」(Flow Matching)框架,在这些向量上进行去噪。模型从一团高斯噪声出发,沿着学习到的速度场,一步步将其「推」向目标嵌入向量。
最后,也是最关键的一步,模型才通过一个「反嵌入层」,将去噪后的连续向量映射回词汇表,输出具体的词语序列。

这与之前的连续扩散语言模型有本质区别。ELF在整个去噪过程中,坚决不中途将连续向量变回离散的token。这种设计保证了扩散动力学过程的完整性和流畅性。正因全程处于向量空间,图像扩散领域积累的诸多成熟技术,如「无分类器引导」(CFG),几乎可以无缝迁移过来,这无疑是一个巨大的优势。
一个网络,两种模式
ELF在架构设计上还有一个巧思:它使用同一个神经网络来承担「去噪」和「解码」两项任务,通过一个特殊的「模式标记」(mode token)进行切换。
在训练阶段,这个网络80%的时间用于学习如何去除噪声(最小化均方误差损失),剩下20%的时间则学习如何将最终的干净嵌入向量准确映射回对应的词语(最小化交叉熵损失)。

到了推理生成的时候,在最终步骤之前,网络始终运行在去噪模式下;当去噪完成,只需切换标记,网络便进入解码模式,完成从向量到词语的翻译。这种设计避免了训练一个独立解码器的开销,使得整个流程非常简洁高效。

此外,ELF还引入了「自条件」(Self-Conditioning)机制。简单说,网络在每一步去噪时,可以参考自己上一步的预测结果,而不是每次都从头开始猜测。这不仅提升了生成质量,还为CFG等技术提供了现成的条件信号来源,且几乎没有增加额外的计算成本。
实验结果:用十分之一的训练量,碾压对手
论文中的实验结果颇具说服力。研究团队在扩散语言模型领域通用的标准设定下进行了评估:使用OpenWebText语料库进行训练,并以生成困惑度(值越低越好,代表文本越流畅自然)和词汇熵(值越高越好,代表生成多样性越丰富)作为核心指标。

数据显示,ELF仅用320步采样,就达到了24的困惑度。相比之下,当前主流的离散扩散语言模型(如MDLM、Duo等),即便经过了专门的「蒸馏」训练以加速推理,在同等采样步数下的表现仍不及未经过蒸馏的ELF。
训练数据量的对比更为悬殊。根据论文统计,MDLM、Duo、FLM等主流方法通常使用了约5000亿个Token进行训练,而ELF仅用了大约450亿个Token——差不多只是前者的十分之一。

在更具实际应用价值的条件生成任务上,ELF同样表现突出。在WMT14德英机器翻译基准测试中,ELF取得了26.4的BLEU分数,超越了同等规模的自回归模型(25.2)以及MDLM(18.4)、CDCD(24.9)等竞争对手。在XSum新闻摘要任务上,ELF在ROUGE-1、ROUGE-2、ROUGE-L三项关键指标上也均位列第一。
写在最后
过去两年,扩散语言模型的研究进展几乎都集中在离散空间——研究者们不断优化掩码策略、提升解码效率、扩大训练规模。而连续扩散路线,因其与语言的「离散本质」之间存在理论上的张力,长期处于相对边缘的位置。
ELF的出现,提供了一个全新的视角和有力的证明:连续扩散非但不是语言建模的障碍,反而可能是一个尚未被充分挖掘的优势源泉。在连续空间里,信息流动更平滑,更容易借鉴图像生成领域已高度成熟的技术栈,也更容易实现精细的引导与控制。ELF在不同参数规模(从1亿到6.5亿)下表现出的良好扩展性也暗示,这条技术路径的上限可能还远未触及。
当然,ELF目前的评估仍主要基于中等规模的模型和学术基准。它能否在千亿乃至更大参数规模上,在更广泛、更复杂的实际任务中,与当前最强的自回归大模型形成真正有竞争力的对抗,还需要后续更多的工作来验证。
但无论如何,当下的结果已经清晰地回答了一个悬而未决的问题:连续扩散语言模型这条路,似乎终于找对了方向。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
OpenClaw新版发布 龙虾机器人实现仿生肢体升级
虽然OpenClaw的更新动态已非唯一焦点,但其生态内一款关键工具的进化,正将智能体的能力边界实质性地向前推进。这次突破的核心在于,著名的“龙虾”智能体如今真正具备了操控现实世界的“手脚”。 这一变革源于其创造者Peter带来的全新Computer Use工具——Peekaboo v3。该版本精准解
AI人才争夺战升温 月之暗面与DeepSeek如何走反大厂化之路
5月12日,北京大学光华管理学院内的一场高端人才招募活动,揭示了当前AI人才争夺战的最新策略。月之暗面副总裁张予彤与光华管理学院院长田轩展开深度对谈,现场更设置了直接面签环节,吸引了大量顶尖学子的关注。这一系列举措清晰地表明,在争夺顶尖AI人才与人工智能专家的竞争中,头部科技公司已不再局限于传统招聘
2026年除甲醛空气净化器选购指南 长效分解技术是关键
2026年家用空气净化器选购需注重长效分解甲醛技术,避免二次污染。新房急住推荐强效分解产品;母婴家庭需兼顾除菌;大空间应关注快速换气效率。选购时重点考察核心分解技术,确保甲醛彻底转化为无害物质。
李彦宏谈AI时代新标准:智能体日活数成关键指标
李彦宏在百度AI开发者大会上提出,衡量AI生态繁荣度的关键指标应从“日活用户数”转向“日活智能体数”。他认为,Token消耗仅反映成本,而智能体持续工作并交付成果更能体现真实价值。同时,开发者角色正融合为建造者、创业者与创造者的三位一体。
乒乓球机器人首次击败高水平人类选手
想象这样一个场景:一张标准乒乓球台,一边是挥洒自如的人类高手,另一边则是一台机械臂。球如闪电般掠过球网,肉眼几乎只能捕捉到一道残影。就在这电光石火之间——0 3秒,机械臂动了,精准地将球回击过去。几个回合的快速对拉后,球落地了。得分的是机械臂。 这个看起来有些“朴素”却速度惊人的家伙,名叫Ace,来
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

