马里兰大学新研究让AI自主设计推理策略效率提升近70%

一项关于如何提升AI“思考”效率与智能水平的前沿研究,近期在人工智能与机器学习领域引发了广泛关注。这项由马里兰大学、弗吉尼亚大学、华盛顿大学圣路易斯分校、北卡罗来纳大学、谷歌及Meta等顶尖机构联合完成的重要工作,已于2026年5月8日以预印本形式发布于arXiv平台,论文编号为arXiv:2605.08083。
设想这样一个场景:当你向一位专家请教复杂问题时,他可能有两种回应方式。一是直接给出一个初步答案,二是先进行多角度、多层次的深入思考,综合权衡后再提供一个更为可靠、周密的解答。当前的大型语言模型(即能够处理文本生成、代码编写、数学推理等任务的AI)在解决问题时,也面临着类似的抉择。研究人员早已发现,如果允许AI在输出最终答案前“投入更多时间进行思考”——例如,让其生成多个不同的推理链条,然后从中筛选出最优解——其整体表现和准确性将获得显著提升。这种在“测试阶段动态分配额外计算资源以优化输出”的技术,在学术上被称为“测试时扩展”。
然而,长期以来,如何高效、智能地分配这些额外的计算资源,一直依赖于研究人员的经验与手动设计。人们需要人为规定:AI应在何时开辟新的推理路径、何时应剪除看似无效的探索、以及何时应该停止思考并给出最终答案。这好比厨师仅凭个人手感调味,配方缺乏普适性且难以系统化解释。本项研究的核心突破,在于提出了一个名为AutoTTS的创新框架。该框架能够让AI自主地探索并发现最高效的“思考策略”,从而彻底摆脱对人类直觉设计的依赖,实现推理过程的自动化优化。
一、为何需要专门研究AI的“思考方式”?
要深入理解这项研究的价值,我们可以借助一个备考策略的比喻。
在高考前,每位学生都拥有固定的复习时间。他可以选择将所有时间集中攻克一门优势学科,也可以在各科目间平均分配,或是根据自身的知识薄弱点进行动态调整。不同的时间分配策略,最终可能导致考试成绩天差地别。AI在解答问题时面临完全相似的困境:它被赋予一定的“计算预算”(通常以处理的语言单元数量衡量),它必须决定如何分配这些预算——是同时并行探索多条推理路径(增加思考宽度),还是让某一条路径思考得更深入、步骤更复杂(增加思考深度),亦或是在推理过程中实时评估进展,以决定是否继续或转向。
现有主流方法大多基于研究人员的“经验性设计”。例如,经典的“自我一致性”方法会让AI同时生成64条独立的推理路径,然后通过“投票”机制选出出现频率最高的答案——这相当于让64名学生独立解题,再统计最普遍的答案。此外,还有一些更复杂的方法,例如根据答案的收敛稳定性来决定何时停止生成新路径,或在推理中途主动“剪除”那些看似偏离正确方向的路径。
研究团队通过系统梳理发现,所有这些人工方法都可以被统一映射到一个“宽度-深度”的二维策略空间中。宽度代表同时探索的路径数量,深度代表每条路径被延伸的长度。像64路自我一致性这样的方法,就是固定深度、将宽度扩展到极致的代表;而另一些方法可能只调整深度,或采用“先拓宽、再剪枝、后深化”的动态轨迹。将这些策略置于同一坐标系下,它们就如同棋盘上由不同棋手走出的一系列落子路线。
这一统一视角揭示了一个关键洞见:现有的人工设计方法都只是这个广阔策略空间中的“特殊个案”。既然存在一个未被充分探索的、更通用的策略空间,那么为何不让AI自己在这个空间中进行搜索,以找到针对特定问题的最优思考路线呢?这正是AutoTTS框架的出发点。
二、AutoTTS框架:让AI自主设计思考策略
AutoTTS的核心思想可以概括为“构建探索环境,而非规定具体路线”。
过去,研究人员直接设计一套固定的思考规则交给AI执行。AutoTFS彻底改变了这一范式:研究人员的工作转变为搭建一个灵活的“探索环境”——明确定义AI可以执行哪些动作(如开辟新路径、深化现有路径、停止等)、环境的状态如何表征、以及如何评估一个策略的好坏。然后,让另一个专门的AI(称为“探索者”)在这个环境中自动地、迭代地搜索高效策略。
为实现这一目标,框架在设计上包含了几个至关重要的技术创新,每一个都旨在解决实际工程中的核心难题。
首先是构建“离线回放环境”。评估一个思考策略的优劣,传统上需要实时运行AI模型来生成推理过程,这既耗费大量计算资源,又非常耗时。AutoTTS的解决方案是预先建立一个完备的“推理数据库”:针对测试集中的每一道题目,提前让基础AI模型生成多达128条完整的推理路径,并每隔500个词元(token,AI处理文本的基本单位)就记录一次当前所有路径的中间答案状态。建立这个数据库后,评估任何新提出的策略都无需再次调用昂贵的大模型——只需像播放录像一样,在已存储的数据上“回放”该策略的决策过程即可。这使策略评估的成本降至几乎可以忽略不计。
其次是采用“单参数化”(论文中称为beta参数化)。在早期实验中,探索者AI倾向于设计包含十几个可调参数的复杂策略。参数越多,搜索空间就呈指数级增长,在有限的搜索轮次内极易导致严重的过拟合——即找到的策略仅在用于搜索的那批特定题目上表现优异,换一批新题目便迅速失效。为解决此问题,研究团队强制规定所有被搜索的策略只能暴露一个核心参数β,策略内部的所有其他控制参数都必须是β的确定性函数。并且,随着β值的增大,策略必须系统性地“更愿意投入计算资源”。这好比规定厨师只能用“风味强度”这一个旋钮来调控整道菜的咸、甜、鲜、辣等所有味觉维度,而非独立调节每种调料。这一强约束极大地简化了搜索难度,并显著提升了所发现策略的稳健性和泛化能力。
第三个关键设计是提供“执行轨迹反馈”。如果仅仅告诉探索者AI“该策略的最终准确率为X%,消耗了Y个词元”,信息量是远远不够的——这就像只告诉厨师“这道菜不好吃”,却不指出是太咸、太淡还是火候不对。为此,系统会完整记录每个策略在每道题目上的详细决策日志:何时开辟了新路径、何时剪除了某条路径、何时决定继续深化思考。这些细粒度的执行轨迹被完整反馈给探索者AI,使其能够精准诊断策略失败的具体原因,从而提出更具针对性的改进方案,实现更高效的搜索。
三、搜索过程:五轮高效迭代,成本仅39.9美元
整个自动化搜索过程类似于一场高效的五轮“头脑风暴”会议,只不过参与者是AI智能体。
搜索所使用的题库是颇具挑战性的AIME24(美国数学邀请赛2024年真题)。扮演“探索者”角色的是擅长编程的AI助手Claude Code。在每一轮中,Claude Code都会仔细分析之前所有已尝试策略的评估结果及其完整的执行轨迹,深入剖析它们的优势、劣势及存在的问题。基于这些分析,它直接编写并提交一个新版本的策略代码。这个新策略随即在离线回放环境中接受快速评估,其结果与轨迹再次反馈给Claude Code,从而开启下一轮的优化迭代。
经过五轮迭代后,研究团队选出在AIME24题库上表现最优的策略并将其固定下来,随后在未参与搜索过程的全新题目上测试其泛化能力。令人惊讶的是,整个自动化发现过程总计仅花费39.9美元和160分钟。相比于人工设计策略所需的大量试错、调整与专家时间,这一成本可谓极低。
从搜索过程的演化轨迹图中可以观察到一个有趣的模式。第一轮提出的策略过于激进地削减计算预算,导致准确率大幅下降。探索者AI察觉到这一问题后,在第二轮策略中显著增加了计算资源的投入,使准确率得以恢复。随后的几轮则在“计算效率”与“答案准确性”之间进行精妙的权衡与优化,整体轨迹朝着更优的“帕累托前沿”(即在不增加计算量的前提下提升准确率,或在不降低准确率的前提下减少计算量)移动,展现了强大的多目标优化能力。
四、发现的策略:四种超越人类直觉的协同机制
最终由AutoTTS发现的策略被命名为“置信度动量控制器”。深入分析其内部逻辑,可以识别出四种在以往人工设计方法中从未出现过的、协同工作的智能机制。
第一个机制是“基于趋势的智能停止”。传统人工方法通常依据“当前时刻答案的一致程度”这一静态阈值来决定停止——例如,当有90%的路径给出相同答案时就停止推理。但CMC采用了更高级的“指数移动平均”方法来平滑并追踪置信度的变化趋势。其停止条件是:置信度的平滑平均值必须足够高,并且该平均值未呈现下降趋势。这意味着系统不会因为某一轮推理中偶然出现了答案集中而草率停止,它需要确认这种一致性是稳定、持续的,而非随机波动。
第二个机制是“宽度与深度的耦合控制”。在CMC中,决定是否开辟新路径(增加宽度)与是否深化现有路径(增加深度)并非两个独立的决策,而是通过同一个置信度趋势信号进行关联控制。当置信度趋势强劲上升时,表明现有路径正在产生有效信息,系统会倾向于深化这些有希望的路径,而非盲目拓宽;当趋势停滞或下降时,则暗示当前路径可能陷入瓶颈,此时系统会智能地开辟更多新路径以引入多样性视角。这形成了一个动态、自适应的反馈回路,而人工设计的方法通常对宽度和深度的控制是割裂的。
第三个机制是“对齐感知的差异化深度分配”。CMC将所有活跃的推理路径智能地分为三类:与当前主流答案高度一致的“对齐路径”、持续给出不同答案的“偏离路径”,以及尚未明确的“中性路径”。资源分配是差异化的:“对齐路径”会获得更多的推理步骤配额,因为它们正在为最可能正确的方向积累证据;“中性路径”获得标准的一步推进;而“偏离路径”虽然也获得一步推进,但如果连续多轮都与主流答案不一致,则会被逐渐放弃。这种机制确保了有限的计算资源被集中投入到“最有希望”的方向上。
第四个机制是“保守的路径放弃策略”。CMC不会轻易或武断地放弃任何一条推理路径。一条路径必须连续多轮都保持与主流答案偏离,才会触发放弃机制。并且,无论如何系统都会保留至少两条活跃路径。这种保守性有效防止了在信息尚不充分时过早地收窄探索范围,从而避免了陷入局部最优解的风险。
这四个机制相互配合,形成了一个高度协调、动态调整的复杂系统。研究团队指出,这种内部协调的复杂程度,已经超出了人类直觉设计所能合理构思的边界,这也是自动化搜索的核心优势所在。
五、实验结果:在多场景下全面超越人工基线
研究团队在四个不同参数规模的Qwen3系列模型上全面评估了AutoTTS发现的策略,并使用了三个未参与搜索的独立测试集进行泛化能力验证,包括AIME25、HMMT25以及GPQA-Diamond(一个研究生级别的科学问答数据集)。对比的基线涵盖了四种代表性的人工设计方法。
在核心的“准确率-计算量”权衡曲线上,AutoTTS发现的策略在绝大多数测试场景下均显著优于所有人工基线方法。以1.7B参数模型在AIME25上的结果为例:所有人工方法的准确率均徘徊在44.4%左右,而AutoTTS策略在β=1.0的设置下,准确率提升至49.0%,同时计算消耗保持在合理范围。更引人注目的是,在β=0.5的低计算预算设置下,其准确率仍能达到46.7%,而使用的词元数量仅为327.9万,比经典方法SC@64的1054.1万减少了近70%,实现了“用更少的资源,获得更好的效果”。
在更大的8B参数模型上,优势更为明显。AutoTTS在β=0.5时,仅用255.3万词元便在AIME24上达到了84.3%的准确率,而SC@64方法需要消耗910.8万词元才能达到80.4%的准确率。这意味着,AutoTTS用不到三分之一的计算成本,换取了更高的性能表现。
在跨模型、跨任务的泛化测试中,将该策略直接应用于DeepSeek-R1-Distill-Llama-8B(一个完全不同架构的模型)时,在HMMT25题目上同样超越了所有人工基线,证明其策略并非针对特定模型的过拟合产物。在GPQA-Diamond这类非数学的复杂科学问答任务上,AutoTTS同样表现出色,在低预算下以更少的计算量达到了与人工方法相当的准确率,展现了强大的通用性。
研究团队还进行了关键的消融实验,以验证框架中各个设计选择的必要性。当移除单参数化约束后,发现的策略出现了严重过拟合,计算量急剧减少但准确率显著下降,表明策略学会了“偷懒”而非真正解题。当移除执行轨迹反馈后,策略无法有效优化,最终消耗了更多计算资源却得到更差的结果,这证实了细粒度反馈对于高效搜索至关重要。
六、研究的深远意义与未来展望
本质上,这项研究完成了一项具有范式转换意义的工作:利用AI来自动化地设计让AI自身变得更智能的方法。
过去,研究人员设计一套新的推理策略需要深厚的领域知识、大量的试错和繁琐的参数调优。AutoTTS将这一过程转变为一个可自动化、低成本执行的标准化流程。更重要的是,它改变了人类专家的角色:从具体策略的设计者,转变为“策略探索环境”的架构师。这就像从手工绘制每一张地图,升级为设计一套自动制图系统——后者一旦建成,便可反复、自动地探索人类绘图师未曾设想过的未知区域。
对于广大AI产品用户而言,这项研究的直接影响在于:未来在使用各类AI服务时,在相同的计算成本下有望获得更准确、可靠的回答;或者说,在保持相同回答质量的前提下,计算成本有望显著降低,从而带来更快、更经济的服务体验。对于AI领域的研究者与工程师来说,该框架为“如何极致优化推理阶段的计算资源分配”这一核心问题开辟了一条全新的、极具潜力的技术路径。
当然,当前研究也存在其局限性。目前的框架实例化仅控制了推理的“宽度”和“深度”两个维度,而真实的AI推理空间可能涉及更复杂的结构,如树形搜索、验证器引导的迭代优化等。此外,搜索过程高度依赖Claude Code这类先进的编程AI,若换用其他开源模型能否取得同等效果,仍需进一步验证。
这项研究也指向了一个更富想象力的未来方向:如果“设计策略”这件事可以交给AI自动完成,那么下一步,是否可以让AI来自动设计“用于发现策略的环境”本身?这种递归式的、层层递进的自我改进路径,目前仍是一片广阔而未被充分探索的蓝海。
Q&A
Q1:AutoTTS框架相比人工设计推理策略,核心优势体现在哪里?
AutoTTS的核心优势主要体现在两方面。第一是极高的搜索效率与极低的成本,整个策略发现过程仅需39.9美元和160分钟,这得益于其创新的离线回放评估机制,避免了反复调用大模型的高昂开销。第二是能够发现超越人类直觉的复杂策略,例如最终找到的置信度动量控制器,其内部多种机制协同工作的复杂程度,是人工设计难以系统化构思的。
Q2:beta参数化在AutoTTS框架中扮演什么关键角色?
beta参数化是一种防止过拟合、提升策略泛化能力的关键约束机制。它强制要求所有被搜索的策略只能通过一个核心参数β来调节其行为强度,策略内部的所有其他参数都必须是β的确定性函数。这极大地压缩了搜索空间,使得在有限轮次内找到的策略不仅能在搜索用的题目集上表现好,更能稳健地迁移到全新的题目、甚至不同的AI模型上,避免了多参数搜索导致的“记忆”特定题目而非学会通用规律的问题。
Q3:AutoTTS发现的策略是否具备跨模型、跨任务的泛化能力?
实验结果表明,其具备良好的泛化能力。研究团队将在Qwen3系列模型上发现的策略,直接应用于架构迥异的DeepSeek-R1-Distill-Llama-8B模型,以及在非数学的GPQA-Diamond科学问答任务上,其性能表现均优于或至少持平于各类人工设计的基线方法。这初步证明了AutoTTS所发现的策略并非针对特定模型或任务类型的过拟合产物,而是一种更具通用性的推理优化方案。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
腾讯收购喜马拉雅股权获批官方回应
5月12日,国家市场监管总局发布的一则审查结果公告,引发了互联网行业的广泛关注。公告正式宣布,附加限制性条件批准腾讯控股有限公司收购喜马拉雅公司股权案。这一审批决定,其意义远超单一商业并购的许可,更深层的监管意图在于维护中国在线音频与网络音乐播放平台市场的良性竞争格局,有效预防平台经济领域可能出现的
小米手环10 Pro陶瓷版发布 搭载亲肤氟橡胶表带
小米集团合伙人、总裁,手机部与品牌业务负责人卢伟冰今日正式宣布,小米手环10 Pro将推出全新陶瓷材质版本。 根据官方信息,这款陶瓷版采用温润的白色设计,搭配氟橡胶表带。材质选择兼顾高级质感与佩戴舒适性,旨在实现优雅外观与柔软贴合的平衡。以下为官方发布的产品实拍图集: 官方率先释出多张局部细节图,经
小米手环10 Pro本月发布 铝合金机身仅重21.6克
备受期待的小米手环10 Pro即将在本月正式发布,标志着小米智能穿戴产品线迎来又一次重要升级。官方信息显示,这款新品在工艺设计、佩戴体验及核心功能上均有显著优化。 小米手环10 Pro在机身设计上实现了新的突破。它采用了轻质铝合金材质中框,将厚度精减至9 7毫米,整体重量仅为21 6克,相比前代更为
陈奇辟谣离职传闻 千里智驾核心技术团队持续攻坚
千里智驾CEO陈奇通过朋友圈否认离职传闻,表示正全力为公司发展拼搏。公司官方声明也确认,陈奇及核心研发骨干正带领团队推进技术研发与产品迭代,各项业务有序开展。团队军心稳定,业务未受传闻影响。
泰坦军团仓刀X276M显示器评测:2K 565Hz与720P 1060Hz双模切换体验
电竞显示器市场迎来全新“帧率王者”。泰坦军团最新推出的27英寸旗舰机型“仓刀 X276M”,在京东平台正式发售,其刷新率参数突破行业常规:支持2K分辨率下565Hz原生高刷,并可一键切换至720P分辨率下的1060Hz极致模式。官方指导价为6110元,结合部分地区以旧换新及平台补贴后,实际到手价约5
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

