何恺明团队发布嵌入式语言流ELF新模型

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

何恺明团队发布嵌入式语言流ELF新模型

热心网友时间：2026-05-13

转载

「语言是离散的，但语言模型不一定是。」这句话，恰好点出了当前大语言模型研究的一个有趣分野。去年，一个名为LLaDA的项目在AI圈内激起了不小的波澜。它基于「掩码扩散」原理，宣称在多项基准测试中，其性能足以与同规模的自回归大模型（即GPT这类逐字生成的模型）相媲美。这一下子，让原本略显小众的扩散语言

「语言是离散的，但语言模型不一定是。」这句话，恰好点出了当前大语言模型研究的一个有趣分野。

去年，一个名为LLaDA的项目在AI圈内激起了不小的波澜。它基于「掩码扩散」原理，宣称在多项基准测试中，其性能足以与同规模的自回归大模型（即GPT这类逐字生成的模型）相媲美。这一下子，让原本略显小众的扩散语言模型（Diffusion Language Model, DLM）研究，走到了更多人的聚光灯下。

问题在于，文字本质上是离散的token序列，而扩散模型最初是为处理连续数据（如图像）而设计的。这种「先天不合」，使得视觉生成领域的主流技术，很难直接套用在语言模型上。

LLaDA证明了扩散路径的可行性之后，各路研究团队纷纷跟进。大家逐渐形成一个共识：扩散模型在文本生成上潜力巨大。它天生支持并行解码，理论上生成速度可以远超逐字输出的自回归模型。同时，它也更容易实现「填空」、「双向修改」等对自回归模型来说颇为棘手的任务。

目前，研究者主要沿着两条技术路线探索：

离散扩散语言模型（Discrete DLM）：直接在token的离散空间里定义扩散过程。例如，用MASK遮盖token再逐步还原，或者将token向均匀分布扩散再逐步修正。这条路近年来是主流，效果也相对更好。
连续扩散语言模型（Continuous DLM）：先将token映射到连续的嵌入向量空间，在连续空间里完成去噪，最后再转换回token。这条路理论上更优雅，但实际效果长期落后于离散方法。

而最近，何恺明团队发表的一篇新论文，恰恰选择了那条更困难的后者路线。

他们提出的模型名为ELF（Embedded Language Flows，嵌入式语言流），其核心思路可以用一句话概括：让扩散过程全程在连续的向量空间中进行，直到最后一步，才将结果「翻译」乘人类可读的词语。

论文共一作者Linlu Qiu在社交媒体上分享了这一成果。

令人惊讶的是，实验结果显示，这个思路不仅可行，效果还出奇地好：仅用了不到其他方法十分之一的训练数据，其生成质量就已经实现了全面领先。

论文标题：ELF: Embedded Language Flows

何恺明的答案：只在最后一步变成词

这篇论文来自MIT的一支八人团队，通讯作者是计算机视觉领域的标志性人物——何恺明。对于深度学习领域的研究者而言，这个名字意味着重量级的工作。2015年，他提出的残差网络（ResNet）解决了深层网络训练的梯度消失难题，其影响至今深远，残差连接的结构几乎渗透到所有现代AI系统中。2024年，他加入MIT后，开始系统性地探索生成模型的前沿。

业内对何恺明新工作的关注度一向很高。

而ELF，可以说是这支团队在语言生成方向上一次颇具巧思的尝试。他们的想法很直接：既然扩散模型最擅长在连续空间里工作，何不让它从头到尾都待在这个舒适区，直到终点才进行一次「转码」？

具体来说，ELF的工作流程分为三步：

首先，通过一个预训练好的编码器（论文中使用了T5编码器），将一句话中的每个词转换为包含上下文语义的「语境嵌入」向量。这一步，离散的文字被投射到了一个高维的连续空间。

接着，采用近年来在图像生成中表现优异的「流匹配」（Flow Matching）框架，在这些向量上进行去噪。模型从一团高斯噪声出发，沿着学习到的速度场，一步步将其「推」向目标嵌入向量。

最后，也是最关键的一步，模型才通过一个「反嵌入层」，将去噪后的连续向量映射回词汇表，输出具体的词语序列。

这与之前的连续扩散语言模型有本质区别。ELF在整个去噪过程中，坚决不中途将连续向量变回离散的token。这种设计保证了扩散动力学过程的完整性和流畅性。正因全程处于向量空间，图像扩散领域积累的诸多成熟技术，如「无分类器引导」（CFG），几乎可以无缝迁移过来，这无疑是一个巨大的优势。

一个网络，两种模式

ELF在架构设计上还有一个巧思：它使用同一个神经网络来承担「去噪」和「解码」两项任务，通过一个特殊的「模式标记」（mode token）进行切换。

在训练阶段，这个网络80%的时间用于学习如何去除噪声（最小化均方误差损失），剩下20%的时间则学习如何将最终的干净嵌入向量准确映射回对应的词语（最小化交叉熵损失）。

到了推理生成的时候，在最终步骤之前，网络始终运行在去噪模式下；当去噪完成，只需切换标记，网络便进入解码模式，完成从向量到词语的翻译。这种设计避免了训练一个独立解码器的开销，使得整个流程非常简洁高效。

此外，ELF还引入了「自条件」（Self-Conditioning）机制。简单说，网络在每一步去噪时，可以参考自己上一步的预测结果，而不是每次都从头开始猜测。这不仅提升了生成质量，还为CFG等技术提供了现成的条件信号来源，且几乎没有增加额外的计算成本。

实验结果：用十分之一的训练量，碾压对手

论文中的实验结果颇具说服力。研究团队在扩散语言模型领域通用的标准设定下进行了评估：使用OpenWebText语料库进行训练，并以生成困惑度（值越低越好，代表文本越流畅自然）和词汇熵（值越高越好，代表生成多样性越丰富）作为核心指标。

数据显示，ELF仅用320步采样，就达到了24的困惑度。相比之下，当前主流的离散扩散语言模型（如MDLM、Duo等），即便经过了专门的「蒸馏」训练以加速推理，在同等采样步数下的表现仍不及未经过蒸馏的ELF。

训练数据量的对比更为悬殊。根据论文统计，MDLM、Duo、FLM等主流方法通常使用了约5000亿个Token进行训练，而ELF仅用了大约450亿个Token——差不多只是前者的十分之一。

在更具实际应用价值的条件生成任务上，ELF同样表现突出。在WMT14德英机器翻译基准测试中，ELF取得了26.4的BLEU分数，超越了同等规模的自回归模型（25.2）以及MDLM（18.4）、CDCD（24.9）等竞争对手。在XSum新闻摘要任务上，ELF在ROUGE-1、ROUGE-2、ROUGE-L三项关键指标上也均位列第一。

写在最后

过去两年，扩散语言模型的研究进展几乎都集中在离散空间——研究者们不断优化掩码策略、提升解码效率、扩大训练规模。而连续扩散路线，因其与语言的「离散本质」之间存在理论上的张力，长期处于相对边缘的位置。

ELF的出现，提供了一个全新的视角和有力的证明：连续扩散非但不是语言建模的障碍，反而可能是一个尚未被充分挖掘的优势源泉。在连续空间里，信息流动更平滑，更容易借鉴图像生成领域已高度成熟的技术栈，也更容易实现精细的引导与控制。ELF在不同参数规模（从1亿到6.5亿）下表现出的良好扩展性也暗示，这条技术路径的上限可能还远未触及。

当然，ELF目前的评估仍主要基于中等规模的模型和学术基准。它能否在千亿乃至更大参数规模上，在更广泛、更复杂的实际任务中，与当前最强的自回归大模型形成真正有竞争力的对抗，还需要后续更多的工作来验证。

但无论如何，当下的结果已经清晰地回答了一个悬而未决的问题：连续扩散语言模型这条路，似乎终于找对了方向。

来源:https://36kr.com/p/3807086478302976

上一篇：苏州打造全球人工智能与光电融合创新高地

下一篇： OpenAI前CTO创业首推交互式大模型原生实时人机协作