南加州大学AI推理突破实现举一反三能力提升

南加州大学的研究团队在2026年5月发布了一项引人注目的成果,论文编号为arXiv:2605.12466v1,为语言模型的架构设计开辟了一条新路。
过去几年,以ChatGPT、Claude为代表的大语言模型彻底重塑了人机交互的图景。但细究起来,这些模型的工作方式有点“一根筋”:无论面对的问题是简单寒暄还是复杂推理,它们都调用固定的计算资源,走完固定的处理步骤,然后给出答案。这就像一个厨师,无论客人点的是泡面还是满汉全席,他都用同样的火候和时间去处理,既没法偷懒,也没法“加班”深思。
这种设计在多数场景下够用,但遇到真正需要深度思考的难题时,就显得力不从心了。研究者们很早就想到,如果能让模型在输出前,先在内部“多琢磨几遍”,逐步完善自己的答案,效果应该会更好。于是,“循环架构”或“循环语言模型”应运而生——让模型像拧螺丝一样,一圈一圈地把答案拧得更紧、更准。
然而,理想很丰满,现实却很骨感。让模型循环起来的代价异常高昂:训练时需要保存每一轮迭代的中间状态,内存消耗随着循环次数线性飙升,有时候训练一个循环模型所需的算力,堪比训练一个参数量大十倍的普通模型。更棘手的是训练稳定性问题,以及“训练-推理不匹配”的尴尬:模型在训练时只学会了转固定圈数,推理时若多转几圈,表现反而会下降。
面对这些瓶颈,南加州大学的团队提出了一个巧妙的解决方案:“吸引子模型”。这个名字借鉴了物理学中的“吸引子”概念——在动力系统中,无论起点如何,系统最终都会稳定收敛到某个状态,就像碗底的小球。这项研究的核心思想在于:与其让模型一圈圈地迭代逼近答案,不如直接让它找到那个迭代过程最终会收敛到的“不动点”,并直接在那里解码出结果。
实验结果令人印象深刻。在大规模语言建模任务上,吸引子模型在多个参数规模上全面超越了标准Transformer和现有的循环模型基准,同时训练计算量减少了25%到31%,训练内存消耗几乎恒定。更惊人的是,一个7.7亿参数的吸引子模型,其性能甚至超过了参数量近两倍(13亿)、训练数据也多一倍的普通Transformer。在极端推理任务上,一个仅用约1000个样本训练、参数量2700万的微型吸引子模型,在“超难数独”和“超难迷宫”任务上分别达到了91.4%和93.1%的准确率,而DeepSeek R1、Claude 3.7、GPT o3-mini等顶尖大模型在这些任务上的准确率均为0%。
一、普通AI模型的“固定跑道”困境
要理解吸引子模型的价值,得先看看现有模型的局限。以标准的Transformer为例,当你输入一段文本让它预测下一个词时,模型会沿着固定的、单向的计算路径走一遍,然后给出答案。这个过程是“均码”的,无论预测的是高频词“的”,还是需要复杂上下文推导的专业术语,模型花费的计算成本完全相同。
为了让模型能“多想一想”,循环架构被设计出来。它让同一组参数被反复使用多次,每次迭代以上一轮的输出为输入,逐步精炼结果,就像厨师对同一锅食材进行反复翻炒调味。理论上这很吸引人,实践也证明它能提升推理能力。
但麻烦出在落地环节。训练循环模型需要使用“时间反向传播”技术,这意味着每一轮迭代的中间结果都必须完整保存在内存中,以备计算梯度之用。迭代次数越多,内存占用就越高,如同要求厨师保存每一次翻炒的火候和状态照片以供复盘——翻炒100次,就得存100张照片。当循环深度增加时,这种开销让训练变得难以承受。
另一个核心难题是“训练与推理不匹配”。模型在训练时被设定为循环8次,它就会优化自己在第8次迭代的表现。如果推理时让它循环12次,模型在第9到第12次的表现就会失控,因为它从未学习过那些状态。这好比一个只练100米冲刺的运动员,突然被要求跑120米,最后20米完全不知所措。
此外,还有专门为小型推理任务设计的递归网络(如TRM),它们在参数量较小时表现尚可,但一旦将参数扩大到2700万,性能竟会直接崩溃归零。研究者将这种现象称为“越大越差”,这对于追求模型可扩展性的AI领域而言,无疑是一个严重的障碍。
二、吸引子模型:直接找到“碗底”而不是一圈圈往下滚
吸引子模型的灵感,源于对循环模型内部机制的一个关键观察:对于绝大多数词元(token),循环过程最终都会稳定收敛到一个固定状态——即无论再循环多少次,输出都不再变化。这说明,循环语言模型本质上是在用有限次迭代去逼近一个数学上的“不动点”。
既然终点总是那个固定点,何不绕过漫长的迭代过程,直接找到它呢?这就是吸引子模型的思路:将迭代过程建模为一个求解“不动点”的数学问题,借助专门的求解器直接定位收敛状态,而非模拟每一步的滚动。
模型由两个模块协同工作,好比一位主厨带着助手。第一个是“骨干模块”,通常是一个较大的Transformer网络。它的职责是根据输入,快速生成一个初步的“输出嵌入”——可以理解为答案的一个粗糙但方向正确的向量草图。这个草图不必完美,但必须有意义。
第二个是“吸引子模块”,通常是一个更小的Transformer。它的任务是对骨干模块给出的草图进行迭代精炼,直到找到那个“不动点”——即无论再怎么计算,结果都保持不变的状态。精炼过程反复进行:将当前答案和骨干模块的初始猜测一起输入吸引子模块,得到新答案,如此循环,直到新旧答案的差异小于某个阈值,或达到最大迭代次数。
这里有一个至关重要的设计细节:“持续注入”。在每一次精炼迭代中,骨干模块给出的初始猜测都会被重新叠加到当前状态上。这确保了吸引子模块始终“不忘初心”,记得自己要从哪里出发,从而避免其收敛到一个与输入无关的随机固定点。消融实验证实,如果没有持续注入,只有12.4%到99.7%的词元能在规定迭代内收敛;而采用加法形式的持续注入后,收敛率稳定在99.7%,且模型预测的困惑度也达到最优。
三、用“隐函数定理”让训练内存不再随迭代增长
吸引子模型在工程上的一个巨大优势,来自于其独特的梯度计算方式。普通循环模型需要保存所有中间步骤,内存随迭代线性增长。而吸引子模型借助数学中的“隐函数定理”来计算梯度,其精妙之处在于:它只需要知道最终的不动点状态,就能反推出模型参数该如何调整,完全不需要记录中间过程。
打个比方:假设你找到了山中的一个湖泊(不动点),你想知道如果改变山的坡度,湖泊位置会如何变化。隐函数定理告诉你,只需分析湖泊当前所在位置的地形特征,就能推算出结果,无需重新模拟每一滴雨水从山顶流下的全过程。
在实际实现中,研究团队进一步采用了“一步近似”法——用一个极其简单的单步计算来近似精确的隐函数梯度。消融实验显示,完整的隐函数梯度计算(Anderson方法)比一步近似在验证困惑度上仅优0.14,但需要4.8倍的内存和2.7倍的时间。折中的“幽灵梯度”(展开3步)需要1.8倍内存和1.4倍时间,改进幅度为0.11。因此,团队选择了一步近似方案,用几乎可忽略的性能损失,换取了显著的效率提升。
实验数据直观地展示了这一优势:当循环深度从1增加到256时,采用传统反向传播的Parcae模型,其训练峰值内存从不足10GB猛增至超过80GB;而吸引子模型的内存占用始终稳定在4.18GB左右,几乎是一条水平线。这一特性使得吸引子模型能够轻松应对更深的有效循环深度,而不会因内存爆炸而无法训练。
四、“平衡内化”:模型自学如何让迭代器变得多余
训练完成后,研究者观察到一个有趣的现象,并将其命名为“平衡内化”。简单说,就是经过充分训练的吸引子模型,其骨干模块给出的初始猜测已经非常接近最终的不动点答案,以至于后续的精炼迭代变得几乎多余。
为何会出现这种现象?从训练机制看,损失函数作用于最终的不动点,而这个不动点又与初始猜测通过数学关系紧密相连。因此,在训练过程中,骨干模块会承受优化压力,学习去产生一个“尽可能接近最终答案”的初始输出,从而降低整体损失。随着训练推进,骨干模块变得越来越擅长直接“猜中”答案,吸引子模块只需要做极少量的微调即可。
研究者通过两种方式展示了这一现象。一是对迭代轨迹进行主成分分析投影:吸引子模型的状态在前8步迭代后就已收敛到一个密集的点簇,后续迭代轨迹几乎重叠;而对比模型Parcae的轨迹在16步内仍有明显漂移。二是追踪训练所需迭代次数:对比的DEQ基线模型所需迭代次数随训练持续增加;而吸引子模型在训练早期就迅速降至最低迭代次数并保持稳定。
这在推理阶段带来了直接好处。系统测试表明,对于吸引子模型,从第一次迭代(T=1)开始,性能就几乎达到峰值。更关键的是,即便完全跳过吸引子模块,直接使用骨干模块的输出(T=0),其表现也优于需要迭代8次才能达到最佳状态的Parcae模型。这意味着,在推理时,用户可以选择完全省去精炼步骤,在几乎不损失性能的前提下,大幅节省计算时间。
五、大规模语言建模:全面碾压同级选手
在大规模语言建模的正面较量中,研究团队将吸引子模型与标准Transformer、循环模型Parcae在140M、370M、770M三个参数量级上进行了对比。所有模型使用相同的数据集、优化器和学习率计划,仅架构不同。
评测涵盖多个维度:验证集困惑度(衡量预测准确性)、Lambada困惑度(测试长距离上下文理解),以及CORE系列下游任务准确率(直接评估模型推理能力)。
结果呈现出一边倒的优势。在140M规模上,吸引子模型将Lambada困惑度从标准Transformer的127.39大幅降低至68.02,提升46.6%;CORE准确率提升12.2%。在770M规模上,吸引子模型的CORE准确率达到26.83%,相比同参数量的Transformer提升19.7%。更令人瞩目的是,这个770M的吸引子模型,在Lambada困惑度(15.21)上,竟然超越了参数量为其1.7倍(1.3B)、训练数据也多约两倍的标准Transformer(17.26)。
效率优势同样明显。在140M参数量级,吸引子模型的计算量比Parcae减少约25%;在770M参数量级,减少约31%。这得益于两方面:求解器通常在达到最大迭代次数前就已收敛,以及一步近似的反向传播无需额外的迭代计算开销。
六、极端推理任务:顶尖大模型束手无策的地方,它做到了
数独和迷宫听起来简单,但这里用的是“极难”版本。超难数独的初始给定数字极少,需要极强的逻辑链才能完成;超难迷宫结构复杂。这两个任务的特点是容错率为零:任何一步错误都会导致全盘皆输。
任务的设定更为苛刻:模型必须在单次前向传播中一次性输出完整的答案网格(不能分步推理),并且仅使用约1000个训练样本进行学习。在这种设定下,标准Transformer(27M参数)准确率为0%,而参数量巨大的DeepSeek R1、Claude 3.7和GPT o3-mini-high同样得分为0%。原因在于,这些大模型擅长生成链式思维(一步步推理)的自然语言,而该任务禁止这种输出方式,要求直接预测完整结构。
在专门设计的递归架构中,HRM(27M参数)是较强的基准。TRM模型在7M参数时表现最强,但当参数扩大到27M时,准确率竟崩溃至0%,再次印证了“越大越差”的怪象。
吸引子模型则走出了不同的曲线。在7M参数时,其表现与TRM 7M相近或稍弱。但当参数扩大到27M时,其准确率非但没有崩溃,反而飙升至91.4%(数独)和93.1%(迷宫),展现出健康的可扩展性。
在此小样本设定下,吸引子模型的实现有所调整:由于样本极少,不再需要单独的骨干模块,初始猜测由“深度监督”中的上一步结果提供。反向传播也从未使用一步近似,改为使用“幽灵梯度”(展开3步),因为在小网络、小数据场景下,一步近似提供的训练信号过于粗糙,幽灵梯度能在精度和效率间取得更好平衡。这一点与TRM作者的经验吻合:将TRM的反向传播改为一步近似后,其数独准确率从87.4%骤降至56.5%。
七、与相关架构的深入对比
吸引子模型并非首个引入不动点概念的架构。深度平衡模型(DEQ)早在2019年就提出了类似框架:用一个隐状态的不动点作为输出,并通过隐函数定理求梯度。然而,对比实验显示,两者性能差距显著:同等参数量下,DEQ的验证困惑度为42.18,而吸引子模型为34.05。
这差距源于三个关键设计差异。首先,DEQ的不动点位于隐藏状态空间,需要一个额外的“输出头”来解码;而吸引子模型的不动点直接位于“绑定的输出嵌入空间”,骨干模块的初始猜测和最终答案共享同一个嵌入矩阵进行解码,这使得两个模块的优化目标天然一致。其次,DEQ从零向量开始迭代,求解器必须“白手起家”;吸引子模型则从一个有意义的初始猜测开始,求解器只需做小幅修正,因此收敛更快(平均8.4次 vs DEQ的14.6次)。第三,DEQ文献指出增加其块数反而会损害性能,而吸引子模型允许使用任意深度的骨干Transformer和可变数量的求解器块,架构设计灵活性更高。
归根结底,吸引子模型做了一件符合直觉的事:先用一个强大的网络给出靠谱的“初稿”,再用一个精炼网络将其推向最终答案,而精炼过程通过直接求解“答案应满足的方程”来完成,无需记录中间步骤,也无需预设迭代次数。
更耐人寻味的是“平衡内化”现象:模型在训练中自发学会了让“初稿”无限接近“终稿”,以至于精炼步骤在推理时变得几乎不必要——但恰恰是这个在训练中存在的精炼步骤,充当了引导“初稿”持续优化的“移动标尺”。这就像一个学徒在严师的反复指点下打磨技艺,最终出师时,即使没有师傅在场,也能独立做出大师级作品。
这项研究揭示了一条可行的路径:未来的语言模型或许不必在“堆参数”和“堆算力”之间做痛苦抉择。通过更精巧的架构设计,完全有可能用更少的计算资源,获得更强的性能。对于算力受限的应用场景——如移动设备、边缘计算或特定垂直领域——这类高效模型的价值不言而喻。
Q&A
Q1:吸引子模型和普通Transformer相比,推理时会不会更慢?
不一定更慢,有时甚至更快。得益于“平衡内化”现象,训练好的吸引子模型中,骨干模块给出的初步预测已非常接近最终答案,吸引子模块往往只需极少数迭代(甚至一次)即可收敛。用户甚至可以选择完全跳过吸引子模块,直接使用骨干模块输出,性能损失很小。因此,实际推理延迟取决于骨干模块的大小和收敛速度,并不必然高于同参数量的Transformer。
Q2:吸引子模型为什么能在极难数独上超越Claude和GPT o3-mini,这两个大模型是不是被限制了?
这里的任务设置有特殊规则:模型必须在单次前向传播中一次性输出完整答案网格,不允许生成逐步推理的链式思维(CoT)。Claude和GPT o3-mini等模型擅长的是生成自然语言推理步骤,而这种输出方式在该任务设定下不被允许,因此得分为0%。吸引子模型则是针对这种“单次直接预测完整结构”的任务进行专门训练和优化的。两者解决问题的范式不同,不能简单地理解为吸引子模型“击败”了通用大模型。
Q3:吸引子模型训练时内存为什么能保持不变,普通循环模型为什么不行?
根本原因在于梯度计算方式不同。普通循环模型训练时,必须保存每一次循环的中间结果,以便通过时间反向传播计算梯度,这导致内存消耗随循环次数线性增长。吸引子模型利用隐函数定理求梯度,这种方法只需要知道最终的不动点状态,就能计算出所有参数的梯度,无需保存任何中间迭代过程的数据。因此,无论求解器内部迭代了多少次,训练时的内存占用都保持恒定。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
B站一季度财报发布 营收达74.7亿元
B站2026年第一季度财报正式出炉,业绩表现稳健增长。5月19日披露的数据显示,本季度公司总营收实现74 7亿元,较去年同期提升7%。尤为值得关注的是其盈利能力的显著增强——调整后净利润录得5 9亿元,同比大幅攀升62%。这份亮眼的成绩单,清晰地反映了B站业务结构正在经历的深刻转型与优化。 广告业务
DeepSeek 是什么 它有哪些功能与使用限制
最近,AI领域内出现了一个值得关注的技术现象。许多用户在使用DeepSeek大语言模型进行对话时发现,当输入一个特定的“think”字符序列后,模型生成的回复偶尔会出现逻辑不连贯或内容偏离预期的状况。这一发现迅速在技术社区和社交平台上引发了广泛讨论。 针对用户的集中反馈,DeepSeek官方反应迅速
南加州大学AI推理突破实现举一反三能力提升
南加州大学的研究团队在2026年5月发布了一项引人注目的成果,论文编号为arXiv:2605 12466v1,为语言模型的架构设计开辟了一条新路。 过去几年,以ChatGPT、Claude为代表的大语言模型彻底重塑了人机交互的图景。但细究起来,这些模型的工作方式有点“一根筋”:无论面对的问题是简单寒
微软东南大学合作开发AI拖拽绘图新功能
近期,一项由东南大学、微软研究院、武汉大学、中山大学及阿布扎比穆罕默德·本·扎耶德人工智能大学联合发布的研究成果,揭示了当前AI在操控电脑屏幕任务中的一个关键瓶颈。这篇预印本论文(arXiv:2605 12501v1)的核心观点指出,现有的“计算机使用智能体”在处理复杂交互操作时存在显著短板。 超越
京东春晓计划再投10亿扶持商家发展
5月19日,京东发布重磅公告,为即将到来的618年中购物节再添强劲动力。平台宣布,其核心商家扶持项目“春晓计划”将在618大促期间限时升级,额外投入价值10亿元的资源,并新增五大核心权益,旨在助力超百万中小商家把握大促机遇,实现销量与利润的双重稳健增长。 对于电商从业者而言,“春晓计划”早已是耳熟能
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

