DeepSeek强化学习与通用人工智能发展路径深度解析

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

DeepSeek强化学习与通用人工智能发展路径深度解析

热心网友时间：2026-05-16

转载

在众多让DeepSeek脱颖而出的因素中，一个关键创新点在于其彻底摒弃了传统的监督微调（SFT），转而采用大规模强化学习（RL）。这一转变不仅让模型的推理能力实现了质的飞跃，更证明了强化学习在解锁大语言模型深层推理潜力方面，拥有令人瞩目的前景。

近年来，围绕强化学习与大语言模型的前沿研究层出不穷。在近期举办的AI智能体推理与决策研讨会（AIR 2025）上，来自伦敦大学学院、加州大学伯克利分校、普林斯顿大学、华盛顿大学、卡内基梅隆大学、Meta、华&为等机构的顶尖学者与工程师齐聚一堂，共同探讨了几个核心议题：AI系统如何模拟类人的推理与决策过程？最新的算法与框架如何支持在不确定性下做出稳健决策？又该如何确保AI的决策过程合乎道德、透明且公正？

从这些前沿讨论中，我们不难窥见DeepSeek技术路线的影子。例如，华盛顿大学Hanna Hajishirzi教授团队在2023年提出的工作，就系统阐述了大语言模型推理的开放训练方法，强调从预训练模型到最终模型需经历指令微调、偏好微调以及基于可验证奖励的强化学习三个阶段——而这正是DeepSeek所采用的路径。

Meta GenAI的田渊栋教授则系统梳理了应对大语言模型局限性的现有方案。除了众所周知的Scaling Law（规模定律），另一种思路是“测试时扩展”，即结合更大的模型、工具或思维链，运用不同策略来寻找比单纯大模型更优的解决方案。田教授也分享了通过梯度上升训练神经网络以统一符号结构与神经表示的研究，尽管该方法尚处早期，其未来能否成为主流仍有待观察。

俄亥俄州立大学的Huan Sun教授从“隐式推理”的角度出发，分析了数据集中的原子事实与推断事实，并提出了一个反直觉的发现：模型的泛化速度与绝对数据量关系不大，反而与关键数据分布——特别是推断事实与原子事实的比例——高度相关，比例越高，泛化越快。

与此同时，作为主流推理能力试金石的“AI for Math”领域也成果丰硕。普林斯顿大学金驰教授团队开发的Goedel-Prover开源大模型，通过将自然语言数学问题转化为形式语言并生成证明，在自动定理证明领域达到了当前最佳性能水平。

更不乏贴近实用的AI智能体研究。卡内基梅隆大学的Graham Neubig教授团队提出了一种混合智能体方案，能够自主交替执行网页浏览与API调用操作，并在每一步灵活选择与人类沟通、生成自然语言、执行Python代码或进行网页浏览。

以下，我们将摘取本次会议中几位讲者的核心观点，一窥大模型推理训练的前沿图景。

一、DeepSeek的语言模型推理开放训练方法

华盛顿大学的Hanna Hajishirzi教授探讨了语言模型推理的开放训练方法。其团队2023年的论文指出，从预训练模型发展到最终强大的推理模型，需要经历三个阶段：指令微调、偏好微调，以及具有可验证奖励的强化学习。有趣的是，DeepSeek后来也采用了几乎相同的方法。

首先是指令微调，也称为监督式微调。核心思想是给预训练模型输入各种任务指令，通过微调教会它遵循指令。早期工作主要关注自然语言处理任务，而2023年引入的“自我指导”框架，则让模型学会合成生成更多数据，用于自身的监督微调。这一范式催生了Alpaca、Vicuna等知名模型。

接下来是偏好微调。这个阶段的关键在于数据整理与混合。一个常见的挑战是，当为了优化某项特定技能而大量增加某类数据时，模型在其他任务上的表现可能会下降。例如，添加过多数学推理数据可能导致知识回忆能力下滑。因此，寻找最佳的数据混合比例是构建优秀微调模型的重要一步。

那么，什么样的数据才能真正助力推理呢？以一道数学题为例，仅仅提供问题和最终答案是不够的。真正有价值的是包含逐步推理过程的数据。这种“思维链”数据能揭示模型的思考路径，便于发现中间错误，但人工标注成本极高且缺乏多样性。

为此，研究团队采用了混合数据策划方案，结合现有资源与合成数据生成。他们让模型扮演不同的用户角色来生成问题，例如“化学动力学研究员”或“五岁小孩”，以此增加问题的多样性。通过让GPT-4o等大模型为这些问题生成思维链，并采用多数投票机制筛选高质量数据，他们构建了规模可观且质量可控的推理数据集。实验表明，加入这类合成数据后，模型在GSM8K等高年级数学问题上的表现得到了显著提升。

在偏好微调阶段，目标是让模型学会区分对同一提示的不同回复中，哪个更符合人类偏好。通常使用基于强化学习的方法来优化一个受人类偏好启发的奖励函数。这里存在两种主流算法：PPO和DPO。研究发现，PPO在效果上通常优于DPO，但其实现更复杂，对计算资源要求更高；而DPO则更简单高效。

团队在构建自己的模型时，对偏好数据的选择极为谨慎：混合使用了监督微调阶段的提示、专注于推理领域的新提示，以及一些领域外的提示。他们让GPT-4o等大模型作为评判，从帮助性、指令遵循性等多个维度对回复进行排序。经过大量实验确定最佳数据混合比例与超参数后，即使使用改进后的DPO算法，也取得了优异效果。

最后阶段是“具有可验证奖励的强化学习”。其核心思想是使用一个极其简单的规则作为奖励：如果模型输出与标准答案等价，则奖励为1，否则为0。这种方法特别适合数学推理等任务，因为为复杂问题标注完整思维链很难，但验证最终答案相对容易。实验发现，当基础模型能力更强时，这种强化学习带来的提升更为显著，这与DeepSeek V3的观察一致。团队后续尝试用GRPO算法替代PPO，并在数学推理上看到了进一步的提升。

二、领悟的Transformer是隐式推理器

俄亥俄州立大学的Huan Sun教授探讨了从隐式推理的“领悟”现象到基于验证器的测试时扩展。

什么是隐式推理？简单说，就是希望模型在内部进行多跳推理（例如回答“奥巴马妻子的生日”），而无需显式输出中间步骤。虽然思维链目前很流行，但隐式推理同样重要，因为它是大规模预训练的默认模式，且可能让模型在信息压缩与整合上更强大。

为了深入研究，团队使用合成数据进行了受控实验。数据集中包含两种事实：“原子事实”和“推断事实”。模型的目标是从训练数据中归纳出潜在规则，并应用于新的多跳查询。

研究有几个关键发现。首先，模型确实能学会隐式推理，但往往需要在“过拟合”训练数据之后，再经过一段长时间的训练，才能实现完美的分布内泛化，这段延迟期被称为“阻塞期”。其次，泛化速度与绝对数据量无关，而与“推断事实”和“原子事实”的比例高度相关，比例越高，泛化越快。

为了理解“领悟”过程中模型内部发生了什么，团队使用了机制可解释性技术进行分析。他们发现，在“阻塞期”，模型内部逐渐形成了专门的“泛化电路”。例如，对于组合性任务，模型底层会并行检索两个实体的属性，上层则进行比较操作。分析表明，在“领悟”发生前，模型主要依赖“记忆化电路”直接关联输入与输出；而在后期，更高效的“泛化电路”被激发出来，取代了前者。

那么，为什么模型并不总能实现分布外的泛化呢？一个根本原因可能在于Transformer架构的非递归设计，限制了跨层间的记忆共享能力。实验也表明，通过在模型不同部分共享参数，可以在一定程度上解锁更好的泛化性能。

三、统一符号结构与神经网络表示

Meta GenAI的田渊栋教授分享了迈向神经与符号决策统一框架的思考。

当前大语言模型存在诸多局限，解决路径大致有三：一是投入更多数据和算力；二是利用“测试时扩展”，即结合工具或思维链；三是探索统一符号与神经表示的理论框架。田教授重点介绍了后两种路径。

在工具使用方面，以旅行规划为例，模型可以先将用户需求转化为符号形式，结合外部信息构成一个优化问题，用专门的求解器解决，再将符号结果转译回自然语言。这种方法能在几秒内提供有保证的正确方案。进一步的研究让智能体学会主动提出澄清性问题，以更高效地理解用户模糊需求。

在思维链方面，团队提出了“Searchformer”模型。其核心是利用A*等组合求解器的搜索轨迹作为思维链来训练模型。研究发现，这种“搜索增强”模型比仅学习最终答案的模型更高效，只需十分之一的数据和参数量就能达到相近性能。在此基础上，通过强化学习微调，模型还能生成比原始A*更短的搜索轨迹，且效果更好。

后续的“DualFormer”研究则尝试通过随机丢弃思维链中的部分标记来训练模型，最终得到了一个“双模式”模型。它能根据第一个生成标记是“搜索开始”还是“计划”，自动在“快速模式”和“慢速模式”间切换，且在两种模式下都优于单一模式的专用模型。有趣的是，类似的行为在DeepSeek等先进模型中也存在，这可能是训练数据结构的副产品。