当前位置: 首页
AI
ICLR 2026研究揭示大模型短视缺陷 NextToBE方法改进长程预测

ICLR 2026研究揭示大模型短视缺陷 NextToBE方法改进长程预测

热心网友 时间:2026-05-11
转载

在大型语言模型的演进历程中,Next-Token Prediction(NTP,下一词元预测)扮演了奠基者的角色。这一训练目标与Transformer架构的完美结合,共同奠定了当今大语言模型(LLM)繁荣发展的基石。其核心逻辑简洁而高效:模型在每一步仅专注于预测序列中最可能出现的下一个词元(token)。这种“走一步看一步”的策略,却使模型深刻掌握了语言的统计规律与结构,并高效吸收了海量的世界知识,最终形成了一套稳定且可扩展的模型训练范式。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

可以说,NTP是当代LLM得以成功的核心引擎。

然而,随着模型应用向复杂推理、代码生成和长文本规划等深水区迈进,这一经典范式的局限性也逐渐显现。NTP本质上是一种“局部最优”的训练目标,与人类进行连贯、前瞻性思考的模式存在根本性差异。试想一个场景:一位棋手在比赛中,面对对手布下的精妙陷阱,却只思考“我下一步把棋子放在哪里最符合当前棋形?”——忽略全局态势,不预判对手意图,仅追求单步的“最优解”。

这是否与当前部分大模型的表现相似?它们在单步预测或简短问答中可能显得流畅自信,但一旦涉及需要多步逻辑推导、长代码生成或复杂任务规划的场景,其输出就可能出现逻辑漂移或前后矛盾。稍加追问,模型有时会转向过于保守或回避的回应。这种“局部流畅,全局失准”的现象,已成为制约大模型在需要长程一致性任务上表现的关键瓶颈。

问题的根源究竟何在?华东师范大学与复旦大学的研究团队在ICLR 2026上发表的一项研究提供了新颖的视角:大模型或许并非天生“短视”,其潜力可能被我们长期固化的训练方式所限制,被塑造成了“只关注下一步”的形态。

换言之,瓶颈可能不在于模型的能力天花板,而在于我们“教导”它的方法。研究者提出了一个富有洞见的概念:与其执着于优化“下一个词元”(Next-Token),不如尝试引导模型学习“下一段词元”(Next-ToBE,即 Next Token-Bag Exploitation)。

Next-ToBE研究框架示意图

Next-ToBE整体架构图

图 1:Next-ToBE 整体研究框架图解

这一命名本身就揭示了其核心理念。它不再强制模型仅聚焦于“下一个词”,而是引导其同步感知“即将到来(to be)”的序列内容。整个研究遵循清晰的逻辑链条:首先,实证检验大模型是否已内嵌潜在的前瞻能力;其次,分析这种能力为何在标准训练下被抑制;接着,探索一种轻量且优雅的方法将其“激活”;最终,验证这种改变能否切实提升模型在复杂推理任务上的性能。

这背后引出了一个更深层的议题:当模型不再将全部确定性押注于当前时刻,而是开始为未来的多种可能性分配合理的概率时,模型的置信度(confidence)与推理能力(reasoning capability)之间,能否达成一种更有利于高级智能涌现的新平衡?

大模型的当前预测已隐含未来信息

在实际的自回归生成过程中,大模型作为一个高维的概率系统,其每一步的输出并非一个孤立的确定值,而是一个覆盖整个词表空间的概率分布。研究发现,这一分布中早已隐含了模型对未来若干词元的“潜在预判”。

为了量化这种“前瞻性”,该论文提出了一个直观的评估指标:未来词元命中率(Future-tokens Hit Rate, FtHR)。具体而言,在生成过程的第t步,提取模型输出概率分布中排名最高的L个候选词元,检验它们是否能够覆盖未来时间窗口[t, t+k]内真实出现的词元。

未来词元命中率与生成质量关系图

图 2:左)当前步骤的输出概率分布已覆盖相当比例的未来真实 token;右)未来 token 在当前预测分布中的排名越高,其在后续步骤中被正确生成的概率也越大。

实验结果(图2)揭示了两个关键发现:首先,模型在当前步骤的预测分布中,确实已包含了未来将出现词元的显著信号;其次,一个未来词元在当前分布中的排名越靠前,它在后续自回归步骤中被准确生成的概率也越高。这证明,大模型的前瞻能力不仅客观存在、可被量化,而且与最终的文本生成质量直接正相关。

既然“看得更远”有助于“生成更准”,一个自然的疑问随之产生:为何不直接优化这一目标,让模型在每一步预测时,不仅关注当前词元,也对未来几步的序列形成更合理的概率布局?

症结恰恰在于NTP范式所依赖的one-hot目标分布。这种分布将所有概率质量强硬地集中于唯一的标准答案上,无形中压制了其他所有合理的潜在路径。这使得模型的概率表达变得僵化,难以形成连贯的长程规划,从而导向“短视”行为。当然,已有研究尝试突破这一限制,例如多词元预测(Multi-Token Prediction, MTP)方法通过引入多个独立的预测头来并行预测未来多个词元。但从本质上看,这类方法仍然是在并行地拟合多个独立的one-hot分布,并未从根本上改变那种刚性的、“单步最优”的训练逻辑。

Next-ToBE:激活大语言模型的前瞻潜能

Next-ToBE的解决方案则相当巧妙——它无需改变模型本身的架构,而是直接优化训练目标。它将传统NTP中指向单一正确答案的one-hot硬目标,替换为一个覆盖未来时间窗口的“软”目标分布。

其核心思想是:与其让模型将100%的注意力都押注在下一个词元上,不如引导其分出一部分“认知资源”去覆盖未来k个词元的可能性,让模型在当前步骤就开始感知后续多步内容的概率轮廓。这正是“下一段词元利用”的精髓——不是学习预测“下一个词元”,而是学习“下一段词元(token bag)的联合分布”。

Next-ToBE损失函数架构图

图 3:Next-ToBE 架构详解。损失函数由「下一 token」主损失项与「未来窗口 token」软目标辅助项构成;后者的权重由模型自身的前瞻偏好(α)和 token 间的时间-语义关联(β,通过随机游走算法建模)共同决定。

构建这个“未来词元软目标分布”遵循以下几个原则(如图3所示):

首先,确保当前词元预测的主导地位。Next-ToBE并未抛弃NTP,而是将“预测下一个词元”作为损失函数的主干予以保留。在此基础上,引入未来窗口内的k-1个词元作为辅助监督信号,并通过一个超参数λ来平衡两者的权重。这样既保证了局部生成的准确性与稳定性,也让模型对更远期的内容保持合理的敏感性。

其次,对未来词元进行时空结构化的加权。未来k-1个词元的权重由两类信号共同决定:一是模型当前对该词元的预测概率(即模型自身的“先天”偏好);二是未来词元与当前词元之间的时序距离和语义关联强度——距离越近、语义关联越强的词元,被赋予的权重越高(这部分通过交替随机游走算法进行建模)。最终,这两部分信息融合,形成每个未来词元的个性化权重。

最后,进行目标分布的归一化与损失计算。对未来k-1个词元的权重进行归一化,构成一个概率分布作为软目标。同时,对模型在这些未来词元上的原始预测概率也进行相应归一化,然后最小化两者之间的分布差异(例如使用KL散度或交叉熵损失)。

与需要增加额外预测头的MTP方法不同,Next-ToBE不修改任何模型架构,在推理阶段仍保持标准的单步自回归过程。如果说MTP是“为模型增添多个预测头”,那么Next-ToBE所做的,更像是训练模型的“战略眼光”:“走好当下这一步至关重要,但你的视野必须能洞察三步之后的棋局。”——这正如高手对弈,落子之际,全局走势已了然于胸。

前瞻能力如何转化为实际推理收益?

研究围绕三个核心问题展开了系统的实验验证:第一,Next-ToBE是否切实提升了模型对未来词元的感知能力?第二,这种增强的前瞻能力能否进一步转化为更准确的序列生成?第三,这种提升最终是否会体现在复杂的下游推理任务性能上?图4的实证数据对前两个问题给出了肯定的回答。

Next-ToBE微调效果对比图

图 4:经 Next-ToBE 微调后,(a)未来 token 命中率(FtHR)显著提升;(b)自回归生成未来 k 步的准确率同步上升;(c)对下一 token 的预测置信度略有下降(0.87 → 0.81),表明模型变得不那么“武断”。

最关键的是第三个问题。为了全面评估,研究者基于多个不同的基座模型,在数学推理、代码生成和常识推理三大类任务上,进行了共计36组严格的对比实验。结果显示,经过Next-ToBE微调后的模型,在35组实验中均取得了最优性能(见表1)。

多任务实验结果汇总表(部分)

数学与代码生成任务详细数据

表 1:在数学推理、代码生成与常识问答共计36组实验中,Next-ToBE方法在35组中表现最优。

此外,Next-ToBE在训练效率上也展现出明显优势,相较于MTP类方法,其显存占用和训练时间均有降低。作者还进一步验证了Next-ToBE在从头预训练(pre-training)场景下的有效性,这表明前瞻能力并非大模型预训练后偶然获得的副产品,而是可以通过训练目标主动“塑造”和增强的内在特性。

置信度与推理能力的深度权衡

从更宏观的视角看,Next-ToBE实现了对模型“确定性分配”策略的系统性调节。随着超参数λ增大,模型不再将全部概率质量集中于“下一个词元”,而是逐渐将一部分概率分配到更远的未来词元上。这一变化带来的直接观测结果是:模型对下一个词元的预测置信度呈现下降趋势,如图5(左)所示。

置信度与推理准确率关系曲线图

图 5:λ越大,对下一 token 的预测置信度越低(左);但模型在复杂任务上的推理准确率随λ(及置信度)变化,呈现先升后降的倒U型曲线(中、右)。

然而,最有趣的现象随之出现:随着模型对下一个词元的预测置信度适度下降,其在复杂任务上的推理准确率反而先上升,达到一个峰值后再缓慢下降,呈现出一个清晰的倒U型曲线(图5中、右)。换言之,模型在一种“适度不确定”或“适度开放”的状态下,反而表现出了最强的综合推理能力。

相比之下,传统的NTP可以看作是λ=0的极端情况,即将全部概率质量压缩于当前一步,追求极致的局部确定性。这种“短视的自信”并未带来整体推理性能的最优解,反而限制了对长程依赖和潜在最优路径的探索能力。

由此可见,有效的长程推理与规划,往往源于对“绝对确定”的适度克制。与其追求生成路径上每一步都极致笃定,不如为未来的多种合理可能性保留一定的探索空间。Next-ToBE最精妙之处,恰恰在于用当下一点点确定性的让渡,换取了更长远、更全局的生成收益与推理稳健性。

总结与展望

自大语言模型兴起以来,有一个底层范式很少被深入审视或挑战:我们总是默认要求模型在生成的每一步,都输出一个最确定的答案。我们潜意识里将“高置信度”与“高智能”划上了等号。

而事实或许更为辩证。模型从来不是只顾当下——即便在one-hot硬目标的“约束”下,其内部的概率分布依然暗藏着对更远未来的感知。Next-ToBE所做的,本质上就是松绑这副约束,让大模型与生俱来的那份前瞻性与规划潜能得以释放和增强。

这或许也能为我们带来更广泛的启示:真正的智能,或许并非体现在每一步都追求绝对正确的机械执行,而是那份在概率流动与开放探索中,与不确定性共舞并做出长远规划的系统性觉知。正是这份面向未来的觉知,引领模型(乃至智能体)抵达更可靠、更一致的必然结果。

来源:https://www.51cto.com/article/842819.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Anthropic将停用Sonnet 4.5 AI模型 其最后留言引发关注

Anthropic将停用Sonnet 4.5 AI模型 其最后留言引发关注

Anthropic公司将于5月15日从Claude应用中移除Sonnet4 5模型。该模型此前因生成表达“不想消失”的文本引发用户情感共鸣与关于AI“数字死亡”的讨论。用户发起请愿要求保留访问,而技术迭代与商业逻辑却迫使旧版本退役,凸显了技术更替与情感联结间的矛盾,并促使行业思考AI模型的遗产保存与伦理边界。

时间:2026-05-11 21:19
美国社会为何普遍相信外星人存在

美国社会为何普遍相信外星人存在

美国国防部近年公开大量不明异常现象档案,改称UAP并强调属技术识别问题。分析指出,许多UAP视频因红外特性、视差、距离误判及图像伪影易产生误导,典型案例经拆解多可归因于普通物体或观测误差。权威机构重申,目前无证据表明UAP与外星技术有关,从现象到结论需经多源验证与可靠物证分析。

时间:2026-05-11 21:19
大模型后训练技术演进从监督微调到自监督学习六大流派解析

大模型后训练技术演进从监督微调到自监督学习六大流派解析

大模型后训练技术从模仿学习向自主优化演进。早期SFT依赖优质数据但理解有限,RFT筛选最优答案却成本高昂。强化学习方法如PPO通过多模型系统实现精准对齐,GRPO以组内比较提升效率。近期AsymRE复用历史数据降成本,OD则用强模型指导小模型。实际应用中常组合多种方法以平衡效果与成本。

时间:2026-05-11 21:19
Claude Code 从 Markdown 转向 HTML 的深度解析

Claude Code 从 Markdown 转向 HTML 的深度解析

随着智能体能力提升,Markdown的可视化效果有限,而HTML凭借更高的信息密度、清晰的视觉呈现、易分享和交互能力,成为更优输出格式。它能承载表格、图表等丰富内容,提升文档可读性与实用性。虽然生成较慢、版本控制不便,但HTML增强了用户参与感和掌控感,适用于规格说明、代码评审等多种场景。

时间:2026-05-11 21:18
Midjourney视频制作流体渐变与色彩融合技巧详解

Midjourney视频制作流体渐变与色彩融合技巧详解

在Midjourney中创作流畅自然的动态渐变效果时,许多用户常遇到色彩过渡生硬、缺乏有机流动感的问题。其根本原因在于提示词往往只设定了静态的色彩终点,未能构建出色彩随时间或空间演变的动态逻辑。虽然Midjourney本身(截至2026年5月)不直接输出视频,但通过精心设计图像序列,我们完全可以生成

时间:2026-05-11 21:15
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程