何恺明发布首个语言模型 105M参数突破自回归框架

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

何恺明发布首个语言模型 105M参数突破自回归框架

热心网友时间：2026-05-13

转载

何恺明，这位计算机视觉领域的标志性人物，这次将目光投向了语言模型。不过，他带领团队探索的，并非当下如ChatGPT所采用、基于“预测下一个词元”的自回归范式。他们选择的，是一条在过去几年图像生成领域大放异彩，如今正被越来越多研究者引入文本生成的新路径：扩散语言模型。在其团队的最新论文中，一个名为

何恺明，这位计算机视觉领域的标志性人物，这次将目光投向了语言模型。不过，他带领团队探索的，并非当下如ChatGPT所采用、基于“预测下一个词元”的自回归范式。

他们选择的，是一条在过去几年图像生成领域大放异彩，如今正被越来越多研究者引入文本生成的新路径：扩散语言模型。

在其团队的最新论文中，一个名为“ELF：Embedded Language Flows”的全新连续扩散语言模型被提出。

与许多仍在词元（token）层面进行扩散的语言模型不同，ELF将整个生成过程都置于连续的嵌入（embedding）空间中进行，直到最后一步，才重新离散化，将表示变回词元。

正是凭借这一设计，ELF仅用1.05亿参数、450亿训练词元、32步采样，就在多项指标上正面超越了一批主流的扩散语言模型。

最直观的一项成果是，在OpenWebText数据集上，它将生成困惑度压到了24。这个指标可以理解为，让一个强大的语言模型为生成结果“打分”，数值越低，意味着生成文本的质量越高、越接近人类自然语言。

在与同类模型的对比中，ELF在训练词元少近10倍、采样步数更少的情况下，反而取得了更低的生成困惑度。

可以说，在过去很长一段时间里，扩散语言模型的主要进展都集中在离散路线。而ELF首次有力地证明：连续的方法，不仅可行，而且效果出众。

ELF到底做了什么

要理解ELF的创新，首先得厘清当前扩散语言模型的两条主流技术路线。

一派是以MDLM、Duo为代表的“离散派”，直接在离散的词元空间进行扩散。另一派则是“连续派”，如Diffusion-LM、CDCD等，它们先将词元映射为连续的嵌入向量，然后在连续空间中进行去噪。

此前，离散路线似乎更受青睐，原因看似不言而喻：语言本身就是离散的。然而，何恺明团队提出了一个反向的洞见——问题或许不在于“语言必须离散”，而在于前人并未将“连续”路线贯彻到底。

早期的连续方法，如Diffusion-LM，虽然在嵌入空间去噪，但每一步仍需计算词元级别的交叉熵损失，相当于将连续的生成轨迹始终“拴”在离散的词表上。后来的LD4LG、Cosmos等潜在扩散模型，去噪过程连续了，却需要额外训练一个解码器将潜在表示转换回词元，引入了新的模块。

ELF的思路则更为彻底：它将所有的去噪过程，完全保留在连续的嵌入空间内；直到最终时刻（t=1），才一次性映射回离散词元。

具体而言，在训练阶段，离散词元先被编码成连续嵌入，再加噪形成带噪表示。模型的任务，要么是将其还原为干净的嵌入（使用均方误差损失），要么直接预测词元（使用交叉熵损失）。

在推理生成时，模型从高斯噪声出发，全程在连续空间中进行去噪。直到最后一步，才切换到解码模式，将最终的嵌入表示投射回词元。

ELF首次清晰地将“连续表示”与“离散输出”这两个过去常被纠缠处理的问题拆解开来：中间的去噪过程完全交给连续空间自由演化；最终的语言生成，则仅作为最后一步的离散化操作。

这种设计，既避免了每一步都强行向词表对齐所带来的约束，也无需引入额外的解码器模块。整个流程真正实现了“连续的归连续，离散的归离散”。而这，正是ELF能够以更少的采样步数和训练数据，取得更优效果的关键所在。

ELF不是“先扩散，再解码”

在具体实现上，ELF系统地解决了三个核心问题：词元如何变为连续表示？在连续空间中如何有效去噪？最后又如何变回词元？

把token变成连续embedding

应用连续扩散于语言生成，第一步是将离散的词元序列转化为连续的向量表示。ELF默认采用预训练的T5编码器来生成具有上下文信息的双向嵌入。值得注意的是，这个编码器仅在训练阶段使用，推理时不会增加额外计算负担。

在连续embedding空间里做Flow Matching

获得连续表示后，ELF在嵌入空间中执行流匹配。简单来说，流匹配定义了一条从噪声数据到干净数据的平滑轨迹：起点是高斯噪声，终点是目标嵌入，中间状态是两者的线性插值。

与传统直接预测“速度场”的做法不同，ELF沿用了团队此前在《Back to Basics》论文中的思路——直接预测干净的嵌入本身。其训练目标是最小化预测嵌入与真实嵌入之间的均方误差。

采用这种“x-预测”方式有两个主要原因：其一，它在高维嵌入空间（如768维或更高）中表现更稳定；其二，它天然地与最终“预测干净词元”的目标对齐。实验也表明，若采用速度场预测并共享权重，模型性能会显著下降。

从连续embedding，再回到离散token

语言生成的最终输出必须是离散词元。因此，ELF在最后一个时间步，需要将连续的嵌入表示映射回词元空间。

巧妙的是，ELF并未像许多潜在扩散模型那样训练一个独立的解码器。它将最后一步视作一次“连续到离散的解码”，而这个解码器与前面的去噪器，其实是同一个神经网络。

为了确保最后一步的训练不至于太简单（因为此时输入已非常接近干净嵌入），ELF在最后一步额外引入了一次词元级别的扰动，构造出带噪声的输入。随后，同一个网络输出干净嵌入，再通过一个可学习的反嵌入矩阵投影为词元逻辑值。训练目标则是标准的词元级交叉熵损失。整个网络共享参数，并通过一个二值的模式标记来区分“去噪模式”与“解码模式”。

推理时，模型从噪声开始连续去噪，直至最后一步切换模式并输出最终词元。此外，ELF还将图像生成中常用的“无分类器引导”技术适配了过来，利用自条件信号来提升生成质量。