清华大学与UCSD联合研发OREO训练法让AI实现类人推理
这项由清华大学与加州大学圣地亚哥分校(UCSD)等顶尖高校合作的研究,于2024年12月发表在arXiv预印本平台,论文编号为arXiv:2412.16145v2。它为AI训练领域带来了一个值得关注的新思路。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

观察ChatGPT解数学题时,一个自然的疑问是:它究竟是如何一步步思考的?理想的推理过程,应当像一位学霸那样,先理解题意,再规划步骤,最后得出答案。然而,当前主流的AI训练方式,却更像一个只给最终分数、不做过程点评的老师——它告诉模型“这个答案对,那个答案错”,却无法指出具体哪一步的推理出了问题。
研究团队精准地指出了这个痛点:目前最流行的直接偏好优化(DPO)方法,在处理需要多步推理的复杂任务时显得力不从心。它依赖于成对的偏好数据,且只能对整个答案进行“好”或“坏”的粗糙评判。这就像只根据考试总分来指导学生,效率低下,尤其在步骤繁多、环环相扣的任务中。为此,团队提出了一套名为“离线推理优化”(OREO)的新训练框架。其核心,是为AI配备了一位“双料导师”:不仅评判最终结果,更能对推理链条中的每一步进行精准评估与指导。
传统方法的困境:过程评估的缺失
要理解OREO的创新,首先得看清现有方法的局限。DPO这类方法的工作原理,本质上是一种基于结果的二元反馈。它需要大量人工标注的“配对数据”(即明确哪个答案更好),并将整个输出序列视为一个不可分割的整体进行优化。
对于生成一段流畅的文本或回答一个简单问题,这种方式或许够用。但面对一道需要十几步推导的数学难题,或是一个需要分解为多个动作的机器人控制任务时,问题就暴露了。AI无法知晓错误究竟源于第三步的公式误用,还是最后一步的计算疏忽。更棘手的是,为复杂推理任务获取高质量、成对的偏好数据成本极高,且DPO平等对待所有词汇和步骤,无法区分关键决策点与常规操作,导致学习信号模糊,效率受限。
OREO的核心思想:双脑协同,步骤级优化
OREO的突破在于引入了“双脑协同”的架构。它不再只训练一个生成答案的模型,而是同步训练两个紧密配合的模块:
策略模型:负责生成具体的推理步骤,如同解题的“学生”。
价值函数:负责评估每一步推理的“好坏”与潜在价值,如同旁观的“点评导师”。
这两个模块并非孤立工作。策略模型在生成每一步时,会参考价值函数的评估来调整方向;价值函数则通过观察策略模型的生成轨迹来优化自己的评判标准。这种协同优化的理论基础是“软贝尔曼方程”,它引导系统不仅追求当前步骤的即时收益,更要考虑其对达成最终目标的长期价值,类似于高手下棋时的全局谋划。
技术实现:精准的步骤级信用分配
在具体实现上,OREO的核心是“步骤级信用分配”。传统方法如同仅公布比赛胜负,而OREO则致力于分析每一次传球、每一次射门的贡献。它会剖析推理链中的每一步:这一步是否澄清了问题?是否为后续关键推导铺平了道路?
价值函数的训练目标,是学会预测“从当前状态出发,最终成功解决问题的期望有多大”。研究团队设计了三种变体以适应不同场景:精细到每个词语的“词语级OREO”、以完整逻辑步骤为单位的“步骤级OREO”,以及用于对比的、模仿DPO整体评判模式的“响应级OREO”。为确保训练稳定,还采用了“停止梯度”等技术,防止两个模块在协同更新时相互干扰。
实验验证:数学与智能体任务上的显著提升
为了验证效果,团队在数学推理和智能体控制两大经典任务上进行了测试。
在数学领域,使用GSM8K(小学数学)和MATH(竞赛数学)数据集。结果令人印象深刻:一个仅1.5亿参数的“小模型”,经OREO训练后,在GSM8K上达到77.3%的正确率,在更具挑战的MATH上达到52.5%的正确率,相比传统监督学习方法提升显著。即便在一个已经表现很好的70亿参数“大模型”上,OREO仍能带来3.6%至5.1%的额外性能提升,证明了其普适性。
在ALFWorld模拟家庭环境的智能体控制任务中,OREO同样表现出色。尤其是在训练时未见过的新环境里,智能体的任务成功率提升了17.7%,这表明该方法增强了AI的泛化能力,而非仅仅记忆特定场景。
迭代训练与价值函数的双重红利
OREO支持迭代式训练。模型在首轮训练后,可以生成新的数据用于下一轮训练,如此循环,性能得以持续提升,且未出现传统方法常见的性能饱和现象。这是因为OREO能有效从失败经验中学习,明确哪些步骤导致了错误。
更巧妙的是,训练好的价值函数本身就是一个强大的推理辅助工具。在模型解题时,可以运用价值函数进行“树搜索”:在关键步骤同时探索多种可能路径,并选择价值评分最高的方向前进。这一技巧在MATH数据集上带来了17.9%的相对性能提升,相当于获得了一个“免费”的推理增强器。
理论贡献与应用前景
从理论上看,OREO的重要贡献在于将强化学习中的经典框架(如路径一致性学习)与语言模型训练进行了巧妙桥接。它从原理上解释了DPO的局限性——DPO可被视为OREO框架下一种放松了关键约束的特殊情况,这导致了其在多步推理任务上的信息损失。
展望未来,OREO所代表的“过程优化”范式潜力广阔。无论是需要多步规划的程序代码生成、涉及复杂逻辑链的科学推理,还是需理解上下文的多轮对话系统,凡是依赖分步决策的任务,都可能从这种细粒度的步骤评估与优化中受益。其迭代学习的能力,也为AI模型的持续进化提供了新路径。
总而言之,OREO的成功在于它正视并尝试解决了复杂推理的核心难题:对步骤差异化和步骤间依赖关系的建模。它标志着AI训练从只关注“最终答案是否正确”,向同时关注“获得答案的过程是否合理”迈出了关键一步。虽然这项研究聚焦于数学与智能体任务,但其核心思想——培养AI的“步骤意识”与“自我评估”能力——无疑为构建更可靠、更智能的AI系统提供了富有启发性的方向。
Q&A
Q1:OREO训练法和传统的DPO方法有什么区别?
A:核心区别在于评估粒度。OREO同时训练策略模型和价值函数,能对推理过程中的每一步进行好坏评估与优化;而DPO只能对整个最终答案进行简单的优劣比较,无法提供步骤级指导。此外,OREO不需要配对的偏好数据,能更有效地利用失败案例。
Q2:OREO方法在哪些任务上表现最好?
A:在需要多步推理的复杂任务上表现尤为突出,例如数学解题和智能体控制。实验显示,在竞赛级数学数据集MATH上,小模型就能达到优异水平;在陌生环境中的智能体控制任务上,成功率也有显著提升。
Q3:价值函数除了训练还有什么用处?
A:训练好的价值函数可直接用于增强推理时的决策。通过“树搜索”策略,在解题的每个关键点评估多种可能路径并选择最优,这能额外提升解题准确率,在实验中带来了可观的性能增益。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Canva视频慢动作制作教程:调整播放速度与版本详解
想在Canva中为视频添加慢动作效果,却找不到直接的调速功能?这很正常,因为Canva的设计重心在于平面与动态图形,其视频编辑器并未内置帧级别的速度调节工具。但实现慢动作效果的方法有多种,关键在于根据你对画质、流畅度和操作便捷性的需求来选择。以下为您梳理几种经过验证的有效方案。 一、导出后使用专业视
Canva图片分辨率转换教程 高清画质调整方法
设计创作中最令人头疼的问题是什么?不是缺乏灵感,而是精心完成的作品在导出成图后变得模糊不清。细节丢失、边缘发虚,打印效果更是大打折扣。如果你在使用Canva时也频繁遭遇输出图片模糊的困扰,先别急着归咎于软件,问题的根源很可能在于几个关键的设置环节。遵循以下五个核心步骤,可以从根本上解决清晰度难题,确
户外摄影技巧:如何用Midjourney绘制唯美日落黄昏
想要通过MidJourney生成一张极具真实感的日落或黄昏户外场景?关键在于如何精准地向AI传达特定时刻的光线质感、色彩层次与空间氛围。直接使用“sunset”这类通用词,往往容易生成饱和度极高的红橙色剪影;而下面这套经过验证的组合策略,能帮助你更稳定地召唤出那种柔和、深邃且富有细节的黄昏质感。 一
Midjourney微距摄影教程昆虫视角镜头参数详解
要在Midjourney中精准模拟昆虫视角下的微距摄影效果,核心在于复现真实微距镜头的成像特质——包括高倍放大、极浅景深、柔美焦外散景以及纤毫毕现的微观细节。这需要综合运用镜头型号语义、光学参数映射、生物视角构建、RAW细节强化及动态行为绑定五大策略。 一、镜头型号语义嵌入法 Midjourney的
港科大新技术实现一句话生成多镜头视频电影级制作
这项由香港科技大学、北京大学、香港大学等顶尖学术机构联合主导的研究成果,已正式入选2025年神经信息处理系统大会(NeurIPS 2025)的视频生成与评估工作坊。该研究的预印本论文编号为arXiv:2412 02259v3,为希望深入了解技术原理的研究者与开发者提供了完整的学术参考。 当前主流的A
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

