斯坦福与英伟达TTT-Discover测试时强化学习技术解析

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

斯坦福与英伟达TTT-Discover测试时强化学习技术解析

热心网友时间：2026-05-23

转载

TTT-Discover是什么

在AI研究的前沿，一种名为TTT-Discover（Test-Time Training to Discover）的新方法正引起广泛关注。它由斯坦福大学、英伟达等顶尖机构联合推出，其核心思路颇为巧妙：让模型在“考试”时也能“学习”。

具体来说，传统的AI模型在测试阶段通常是“冻结”的，只负责输出答案。而TTT-Discover则反其道而行之，它在测试时对模型进行强化学习训练，权重并不冻结，而是持续微调。它通过一个精心设计的熵目标函数来优化最大奖励，再结合一种受PUCT算法启发的状态重用机制，使得模型能够从解决具体问题的每一次尝试中实时汲取经验。这种方法基于开源大模型gpt-oss-120b，已经在数学、GPU内核工程、算法竞赛和生物信息学等多个硬核领域取得了最先进的成果，而解决单个复杂问题的成本，仅仅需要数百美元。

TTT-Discover的主要功能

测试时持续学习：这可能是它最碘伏性的特点。模型在直面具体问题时，能够动态更新自身权重，从失败的尝试中实时积累经验，实现一种针对特定任务的“定向进化”。
科学发现优化：它的目标直指那些开放的、尚未有标准答案的科学难题，在数学、工程、算法、生物学等领域，致力于寻找超越现有知识边界的最优解。
高效搜索策略：如何在海量的可能性中不迷失方向？TTT-Discover通过熵目标函数聚焦于高奖励动作，同时利用PUCT机制智能地重用历史探索状态，在“深入挖掘”和“广泛尝试”之间取得了精妙的平衡。
低成本高性能：它证明了卓越的性能未必需要天价的投入。基于开源模型，它就能在多项艰巨任务中达到顶尖水平，将单问题的训练成本控制在几百美元的量级，极大地降低了前沿AI研究的门槛。

TTT-Discover的技术原理

那么，这套方法背后有哪些技术关键呢？主要有两大支柱：

熵目标函数：其优化目标函数为 J_β(θ) = E[log E[e^{βR}]]。这里的门道在于参数β。当β趋近于无穷大时，整个目标会收敛于最大化“最大奖励”，而不是常见的“平均奖励”。这意味着模型会变得极其“专注”，全力去寻找那个单一的、极致的优秀解，而不是满足于整体不错的平均水平。为了避免训练过程失控，该方法还采用了自适应的β(s)来控制KL散度，确保学习过程的稳定性。
PUCT启发状态重用：简单重复尝试无疑是低效的。TTT-Discover维护了一个历史解缓冲区，并设计了一个评分函数 Q(s) + c·P(s)·√[(1+n(s))/(1+T)] 来智能选择初始状态。其中，Q(s)取的是子节点中的最大奖励（再次强调最大值而非平均值），P(s)则是基于奖励排名的先验概率。这套组合拳既鼓励模型去重用那些已经展现出高潜力的状态（利用），又通过多样性机制保持了对新可能性的探索。

TTT-Discover的项目地址

对于希望深入了解技术细节的研究者和开发者，相关的技术论文已经公开在arXiv上，可以通过以下链接获取：
https://arxiv.org/pdf/2601.16175

TTT-Discover的应用场景

理论再精妙，也需要实战检验。TTT-Discover已经在几个要求极高的领域展现了其威力：

数学研究：在诸如Erdős最小重叠问题、自相关不等式等经典的开放数学问题上，它能够优化其边界值，甚至发现新的构造性证明，为理论数学研究提供了新的工具。
GPU内核工程：这是高性能计算的基石。TTT-Discover可以帮助自动生成高度优化的计算内核，例如针对AlphaFold的TriMul算子、DeepSeek的MLA解码等，其生成代码的速度甚至超越了人类专家手工优化的版本。
算法竞赛：面对AtCoder等编程竞赛中的NP-hard优化问题，例如复杂的几何计算、生产规划等，TTT-Discover能够设计出有效的解决方案，展示了其处理离散组合优化问题的强大能力。
生物信息学：在精准医疗的基础——基因数据分析领域，TTT-Discover被用于改进单细胞RNA测序数据的去噪算法，有效提升了基因表达数据分析的准确性和可靠性。

来源:https://ai-bot.cn/ttt-discover/

上一篇：钉钉如何对接实在取数宝实现电商数据自动同步

下一篇： OpenClaw编译错误快速修复指南一键定位语法问题