ICLR 2026研究揭示大模型短视缺陷 NextToBE方法改进长程预测

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

ICLR 2026研究揭示大模型短视缺陷 NextToBE方法改进长程预测

热心网友时间：2026-05-11

转载

在大型语言模型的演进历程中，Next-Token Prediction（NTP，下一词元预测）扮演了奠基者的角色。这一训练目标与Transformer架构的完美结合，共同奠定了当今大语言模型（LLM）繁荣发展的基石。其核心逻辑简洁而高效：模型在每一步仅专注于预测序列中最可能出现的下一个词元（token）。这种“走一步看一步”的策略，却使模型深刻掌握了语言的统计规律与结构，并高效吸收了海量的世界知识，最终形成了一套稳定且可扩展的模型训练范式。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

可以说，NTP是当代LLM得以成功的核心引擎。

然而，随着模型应用向复杂推理、代码生成和长文本规划等深水区迈进，这一经典范式的局限性也逐渐显现。NTP本质上是一种“局部最优”的训练目标，与人类进行连贯、前瞻性思考的模式存在根本性差异。试想一个场景：一位棋手在比赛中，面对对手布下的精妙陷阱，却只思考“我下一步把棋子放在哪里最符合当前棋形？”——忽略全局态势，不预判对手意图，仅追求单步的“最优解”。

这是否与当前部分大模型的表现相似？它们在单步预测或简短问答中可能显得流畅自信，但一旦涉及需要多步逻辑推导、长代码生成或复杂任务规划的场景，其输出就可能出现逻辑漂移或前后矛盾。稍加追问，模型有时会转向过于保守或回避的回应。这种“局部流畅，全局失准”的现象，已成为制约大模型在需要长程一致性任务上表现的关键瓶颈。

问题的根源究竟何在？华东师范大学与复旦大学的研究团队在ICLR 2026上发表的一项研究提供了新颖的视角：大模型或许并非天生“短视”，其潜力可能被我们长期固化的训练方式所限制，被塑造成了“只关注下一步”的形态。

换言之，瓶颈可能不在于模型的能力天花板，而在于我们“教导”它的方法。研究者提出了一个富有洞见的概念：与其执着于优化“下一个词元”（Next-Token），不如尝试引导模型学习“下一段词元”（Next-ToBE，即 Next Token-Bag Exploitation）。

Next-ToBE研究框架示意图

Next-ToBE整体架构图

图 1：Next-ToBE 整体研究框架图解

这一命名本身就揭示了其核心理念。它不再强制模型仅聚焦于“下一个词”，而是引导其同步感知“即将到来（to be）”的序列内容。整个研究遵循清晰的逻辑链条：首先，实证检验大模型是否已内嵌潜在的前瞻能力；其次，分析这种能力为何在标准训练下被抑制；接着，探索一种轻量且优雅的方法将其“激活”；最终，验证这种改变能否切实提升模型在复杂推理任务上的性能。

这背后引出了一个更深层的议题：当模型不再将全部确定性押注于当前时刻，而是开始为未来的多种可能性分配合理的概率时，模型的置信度（confidence）与推理能力（reasoning capability）之间，能否达成一种更有利于高级智能涌现的新平衡？

大模型的当前预测已隐含未来信息

在实际的自回归生成过程中，大模型作为一个高维的概率系统，其每一步的输出并非一个孤立的确定值，而是一个覆盖整个词表空间的概率分布。研究发现，这一分布中早已隐含了模型对未来若干词元的“潜在预判”。

为了量化这种“前瞻性”，该论文提出了一个直观的评估指标：未来词元命中率（Future-tokens Hit Rate, FtHR）。具体而言，在生成过程的第t步，提取模型输出概率分布中排名最高的L个候选词元，检验它们是否能够覆盖未来时间窗口[t, t+k]内真实出现的词元。

未来词元命中率与生成质量关系图

图 2：左）当前步骤的输出概率分布已覆盖相当比例的未来真实 token；右）未来 token 在当前预测分布中的排名越高，其在后续步骤中被正确生成的概率也越大。

实验结果（图2）揭示了两个关键发现：首先，模型在当前步骤的预测分布中，确实已包含了未来将出现词元的显著信号；其次，一个未来词元在当前分布中的排名越靠前，它在后续自回归步骤中被准确生成的概率也越高。这证明，大模型的前瞻能力不仅客观存在、可被量化，而且与最终的文本生成质量直接正相关。

既然“看得更远”有助于“生成更准”，一个自然的疑问随之产生：为何不直接优化这一目标，让模型在每一步预测时，不仅关注当前词元，也对未来几步的序列形成更合理的概率布局？

症结恰恰在于NTP范式所依赖的one-hot目标分布。这种分布将所有概率质量强硬地集中于唯一的标准答案上，无形中压制了其他所有合理的潜在路径。这使得模型的概率表达变得僵化，难以形成连贯的长程规划，从而导向“短视”行为。当然，已有研究尝试突破这一限制，例如多词元预测（Multi-Token Prediction, MTP）方法通过引入多个独立的预测头来并行预测未来多个词元。但从本质上看，这类方法仍然是在并行地拟合多个独立的one-hot分布，并未从根本上改变那种刚性的、“单步最优”的训练逻辑。

Next-ToBE：激活大语言模型的前瞻潜能

Next-ToBE的解决方案则相当巧妙——它无需改变模型本身的架构，而是直接优化训练目标。它将传统NTP中指向单一正确答案的one-hot硬目标，替换为一个覆盖未来时间窗口的“软”目标分布。

其核心思想是：与其让模型将100%的注意力都押注在下一个词元上，不如引导其分出一部分“认知资源”去覆盖未来k个词元的可能性，让模型在当前步骤就开始感知后续多步内容的概率轮廓。这正是“下一段词元利用”的精髓——不是学习预测“下一个词元”，而是学习“下一段词元（token bag）的联合分布”。

Next-ToBE损失函数架构图

图 3：Next-ToBE 架构详解。损失函数由「下一 token」主损失项与「未来窗口 token」软目标辅助项构成；后者的权重由模型自身的前瞻偏好（α）和 token 间的时间-语义关联（β，通过随机游走算法建模）共同决定。

构建这个“未来词元软目标分布”遵循以下几个原则（如图3所示）：

首先，确保当前词元预测的主导地位。Next-ToBE并未抛弃NTP，而是将“预测下一个词元”作为损失函数的主干予以保留。在此基础上，引入未来窗口内的k-1个词元作为辅助监督信号，并通过一个超参数λ来平衡两者的权重。这样既保证了局部生成的准确性与稳定性，也让模型对更远期的内容保持合理的敏感性。

其次，对未来词元进行时空结构化的加权。未来k-1个词元的权重由两类信号共同决定：一是模型当前对该词元的预测概率（即模型自身的“先天”偏好）；二是未来词元与当前词元之间的时序距离和语义关联强度——距离越近、语义关联越强的词元，被赋予的权重越高（这部分通过交替随机游走算法进行建模）。最终，这两部分信息融合，形成每个未来词元的个性化权重。

最后，进行目标分布的归一化与损失计算。对未来k-1个词元的权重进行归一化，构成一个概率分布作为软目标。同时，对模型在这些未来词元上的原始预测概率也进行相应归一化，然后最小化两者之间的分布差异（例如使用KL散度或交叉熵损失）。

与需要增加额外预测头的MTP方法不同，Next-ToBE不修改任何模型架构，在推理阶段仍保持标准的单步自回归过程。如果说MTP是“为模型增添多个预测头”，那么Next-ToBE所做的，更像是训练模型的“战略眼光”：“走好当下这一步至关重要，但你的视野必须能洞察三步之后的棋局。”——这正如高手对弈，落子之际，全局走势已了然于胸。