Bengio新研究突破递归推理瓶颈并行计算效率远超传统方法

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

Bengio新研究突破递归推理瓶颈并行计算效率远超传统方法

热心网友时间：2026-05-24

转载

推理效率与推理质量，始终是推动大语言模型发展的核心驱动力。当前的主流技术路线非常明确：通过生成更多的中间Token，利用思维链技术将推理过程显式地“书写”出来。然而，这条路径存在一个天然的瓶颈：推理深度越深，生成的Token数量就越多，随之而来的计算延迟与成本也会急剧攀升。

近期，Yann LeCun在公开访谈中再次指出，自回归生成可能并非通往通用人工智能（AGI）的终极路径。他认为，真正的智能更有可能在潜在空间（Latent Space）中，通过内部的规划与推理过程来实现。如今，图灵奖得主Yoshua Bengio的团队带来了一项突破性研究，为这一方向提供了具体可行的技术方案。

Bengio新论文刷新递归推理上限，并行轨迹碾压串行推理

他们提出了全新的GRAM（生成式递归推理模型）。其核心创新在于，将过去确定性的递归潜在推理，转变为了概率性的多轨迹并行计算。简而言之，模型在潜在空间中进行带有随机性的递归推理，每一步都可以“采样”出不同的探索方向，最终形成对问题解空间的广泛覆盖。

实验结果极具冲击力：在仅进行16步递归并采样20条并行轨迹的情况下，GRAM的性能表现就全面超越了所有确定性基线模型进行320步串行递归的结果。这为突破深度推理的算力与效率瓶颈，开辟了一条全新的道路。

从「单轨确定」到「多轨概率」：范式革新

要深入理解GRAM的价值，首先需要明确它旨在解决的核心难题。

现有的递归推理模型通过共享参数的转移函数，对潜在状态进行迭代式精炼，这确实是一个前景广阔的范式——它将推理深度与模型参数量解耦，使得规模较小的模型也能通过反复计算来完成复杂任务。

然而，其根本问题在于，这些模型是完全确定性的。给定相同的输入，模型只会沿着一条固定的轨迹前进，最终收敛到唯一的结果。当面对存在多个有效解（例如经典的N皇后问题），或者单一路径容易陷入局部最优的复杂难题时，这种“一条路走到黑”的方式就显得捉襟见肘了。

潜在推理轨迹对比。左图：N 皇后问题示例，存在两个有效解。右图：给定潜在推理的三次独立运行轨迹（τ1、τ2、τ3）：（a）以往的递归推理模型（RRMs，例如 HRM、TRM）是确定性的，所有运行都会坍缩到同一条轨迹，最终收敛到单一解，因此无法探索其他可能解。（b）GRAM 则能够探索多样化的轨迹，生成不同的推理路径，并到达多个有效解 y1 和 y2，同时自然支持推理时的并行扩展。

GRAM的解决方案直观而巧妙：在递归推理的每一步中，引入可学习的随机性。

具体实现上，模型在每一步会先计算一个确定性的“提议更新”，然后从一个与当前状态相关的高斯分布中，采样一个“随机引导信号”，将两者结合以生成新的潜在状态。其中，高斯分布的均值编码了模型学习到的有效引导方向，方差则控制了探索的幅度。这一设计使得模型在保留确定性精炼能力的同时，能够主动探索不确定性区域，有效避免陷入局部最优解。

层次化架构与变分训练

GRAM 架构图

为了更高效地管理复杂的推理过程，GRAM采用了层次化的潜在状态设计，分为高层和低层两个组件：

低层组件在每次状态转移内部被快速、多次更新，负责处理细粒度的中间计算与细节。
高层组件更新频率较低，承载着更抽象、更宏观的推理状态，随机性也只被注入到这一层。

这意味着，随机引导作用于更高层次的推理规划，把握整体方向，而不会干扰底层的确定性精细运算，从而实现了探索广度与计算精度的完美平衡。

作为一个概率生成模型，GRAM通过变分推断进行端到端训练。模型定义了两个关键分布：推理时使用的先验分布，以及训练时能够“看到”正确答案的后验分布。训练目标是最大化证据下界（ELBO），其中包含鼓励模型做出正确预测的重构项，以及约束后验分布与先验分布之间距离的KL散度项。通过这种训练机制，模型的后验学会了哪些随机方向能够导向正确解，而推理时使用的先验则继承了这种高效的探索策略。

双轴推理扩展：深度与宽度的结合

GRAM的一项关键贡献，是明确了推理时计算的“双轴扩展”策略，这直接解释了其卓越性能的来源。

深度扩展（串行）： 即增加递归步数。与其他递归模型类似，GRAM支持自适应计算时间，允许每条推理轨迹在合适的深度自行终止。

宽度扩展（并行）： 这才是GRAM的亮点所在。模型可以从训练好的先验分布中，并行采样多条独立的推理轨迹，每条轨迹最终解码出一个候选答案，最后通过选择机制（如投票或奖励模型）挑出最佳结果。候选答案的选择提供了两种策略：简单的多数投票，或者使用一个额外训练好的潜在过程奖励模型，直接根据潜在状态预测轨迹质量并选择最优。

“宽度扩展”的战略意义重大，它巧妙地绕开了单纯增加深度所带来的线性延迟增长瓶颈。多条轨迹可以充分利用现代硬件进行并行计算，在相同的实际时间开销内，能够覆盖远比单一路径广阔得多的解空间。

实验结果：效率与性能的双重突破

研究团队在结构化推理、多解约束满足以及无条件生成等多类具有挑战性的任务上，全面验证了GRAM框架的有效性。

在结构化推理任务（如Sudoku-Extreme和ARC-AGI）中，GRAM持续领先于所有确定性递归基线模型。在极难数独（Sudoku-Extreme）基准测试上，GRAM仅用16个监督步就取得了97.0%的惊人准确率，显著优于TRM模型的87.4%。

基准测试上的性能表现。在 Sudoku-Extreme 和 ARC-AGI 两个基准上，GRAM 都持续优于所有确定性递归基线模型（Looped TF、HRM、TRM）。这表明，在递归推理范式中，引入随机性的潜在状态转移能够带来显著性能提升。

更值得关注的是其推理扩展曲线：GRAM在“16步递归 + 20条并行采样”的配置下，准确率就已达到97.0%，这甚至超过了TRM模型进行320步纯深度递归时的表现（90.5%）。这清晰地证明了“深度+宽度”组合策略相对于单纯堆叠推理深度的巨大效率优势。

左图：Sudoku-Extreme 上的推理时扩展表现。TRM 和 GRAM 都能从更长的递归过程（横轴）中获益，但 GRAM 还可以通过并行采样进一步扩展性能，其中 N 表示采样数量。每一次迭代对应一个监督步骤，同时也意味着在 Looped TF 中需要 K 倍更多的扁平迭代次数。右图：N 皇后问题（8×8）中，模型在不同解数量下的准确率。传统的确定性递归模型会随着可能解数量的增加而出现明显性能下降，而 GRAM 则能够保持稳定表现。

在多解任务（如N-Queens和图着色问题）上，GRAM的独特价值得到了最充分的体现。在8皇后问题中，确定性递归模型由于只能收敛到一个解，其覆盖率最高仅为36.1%。而标准的自回归生成模型虽然覆盖率较高，但在严格满足约束的准确率上不及GRAM。GRAM则成功实现了两者优势的结合，同时获得了高准确率和接近最优的覆盖率。

N 皇后和图着色基准上的评估结果。Rec. 和 Gen. 分别表示模型是否使用递归计算和生成式采样。表中数值为多次运行的平均值 ± 标准差。Accuracy：单次采样准确率（%）。Conflict：违反约束的边数，数值越低越好（↓）。Coverage：在 20 次采样中发现的不同有效解占比（%）。

在无条件生成任务（如数独生成和MNIST图像生成）上，GRAM同样表现卓越。在无条件生成有效数独盘面时，GRAM仅用1090万参数和16个监督步，就实现了99.05%的有效生成率，超越了参数量更大、步骤更多的扩散模型。在二值化MNIST图像生成任务中，确定性基线TRM出现了严重的模式坍塌，而GRAM则取得了与先进扩散模型相媲美的生成质量。

左：二值化 MNIST 上的无条件生成结果。右：无条件数独生成。

核心洞察：随机性与引导学习的协同效应

通过系统的消融实验，研究团队揭示了GRAM成功背后的关键：随机性与学习到的引导方向，二者协同作用，缺一不可。

Sudoku-Extreme 和 N 皇后（8×8）上的消融实验。评估时使用 5 次采样。对于（a），各组件是在 Looped TF 基线之上逐步累加加入的。其中，DS 表示深度监督，HR 表示层级递归，SG 表示随机引导。对于（b），随机性和学习得到的引导机制都至关重要，移除其中任意一个都会显著降低性能。

实验表明，如果仅保留随机性而移除学习到的引导方向（即均值），模型在数独任务上性能尚可，但在N皇后任务上准确率会暴跌。反之，如果移除随机性仅保留引导，则性能完全丧失。简单的随机解码或随机初始化也无法带来任何增益。这充分说明，GRAM的性能提升并非源于盲目的随机扰动，而是得益于变分框架下，有引导的定向探索与确定性精炼之间的深度协同。