数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

深度探索R1比R1-ZERO更重要的原因

AI热点日报时间：2026-06-29

热点解读

AI自我进化的新范式，R1-Zero值得更多关注。核心内容：1 Mike Knoop对AI发展趋势的独特见解2 R1-Zero不依赖人类标注的新范式3 ARC Prize 2024推动AI适应新颖问题几乎没有任何第三方提供商愿意托管这个模型变体，但它的可用性对于研究至关重要。幸运的是，现在终于

AI自我进化的新范式，R1-Zero值得更多关注。
核心内容：
1. Mike Knoop对AI发展趋势的独特见解
2. R1-Zero不依赖人类标注的新范式
3. ARC Prize 2024推动AI适应新颖问题

R1比R1-ZERO更重要-深度探索公司R1-ZERO和R1的分析

几乎没有任何第三方提供商愿意托管这个模型变体，但它的可用性对于研究至关重要。幸运的是，现在终于能通过一些渠道访问到r1-zero了。

ARC Prize Foundation的目标，是定义、衡量并激发那些通往AGI的新想法。为此，我们正在努力打造全球最强大的创新环境。然而现实是，我们至今仍未实现通用人工智能，创新的瓶颈依然存在。尽管纯LLM预训练的规模化扩展已被证明并非可取路径——这在去年夏天的主流人工智能行业叙事和公众观点中仍是主流——但故事的力量在于，它们最终会驱动经济活动，比如投资方向、研究重点、资金流向、地缘整治、贸易格局等等。一个直观的例子：2023-2024年间，新的LLM初创企业吸引了约200亿美元的投资，而专注于更前沿AGI方向的初创企业，却只吸引了大约2亿美元。

正是在这样的背景下，我们于去年六月推出了ARC Prize 2024。它的主旨非常明确：让更多人意识到LLM扩展的局限性，并推动一个真正有用的基准——ARC-AGI-1——朝着新的方向发展。这个基准要求AI系统必须适应那些新颖的、从未见过的问题，而不是单纯依赖记忆和模式复现。

1 DeepSeek R1架构

上周，DeepSeek发布了他们的新R1-Zero和R1“推理者”系统，直接在ARC-AGI-1上与OpenAI的o1系统正面交锋。结果相当有意思：R1-Zero、R1和o1（低运算模式）的得分都落在了15-20%区间，这与GPT-4o那可怜的5%得分形成了鲜明对比——要知道，GPT-4o可是多年纯LLM扩展努力下的巅峰产物。根据本周美国市场的反应，公众似乎开始意识到纯LLM扩展的局限性了。不过，对于即将到来的推理需求浪潮，大多数人还处于无知状态。

2024年12月，OpenAI宣布了一项突破性的o3系统。我们在验证后发现，它在低计算模式下得分76%，高计算模式下更是达到了惊人的88%。o3系统第一次展示了一个实用的、通用的计算机实现，能够适应那些完全陌生的、从未见过的问题。这是一条极其重要的科技新闻，但奇怪的是，o3在ARC-AGI-1上的胜利，几乎没有引起主流媒体的关注和报道。

这正是人工智能和计算机科学领域一个至关重要的时刻。这些系统需要进行深入研究，但由于o1/o3的封闭性，我们不得不依靠大量的推测。好在ARC-AGI-1和现在（几乎）开源的R1-Zero和R1，为我们提供了增加理解的机会。而一个关键判断是：R1-Zero比R1更重要。之所以说“几乎”，是因为DeepSeek并没有公开他们模型权重生成的可复现方式。

2 R1-ZERO消除了人为瓶颈

在之前对o1和o3的分析中，我们推测了这些推理系统的工作原理，关键点可以概括为：第一，为一个问题领域生成思维链；第二，使用人工专家（即监督微调SFT）和自动机器（即强化学习RL）来标记其中的中间推理步骤；第三，用这些标记数据训练基础模型；最后，在测试时，从过程模型中进行迭代推断。

根据DeepSeek最新发表的研究，我们能够更好地支撑这些推测。一个核心观点是，LLM推理系统在创新适应度（以及可靠性）上，主要沿着三个维度取得了更高成就：

1. 将CoT过程模型训练中添加人类标签，即SFT。

2. 进行CoT搜索而非线性推理（并行逐步CoT推理）。

3. 进行整个CoT采样（并行轨迹推断）。

项目（1）直接受限于人类数据生成的瓶颈。这些标签的质量和覆盖范围，决定了推理系统在哪些领域能获得最大收益。例如，o1在MMLU专业法律类别上的水平，就明显低于其在数学和逻辑类别上的表现。而项目（2）和（3）则受效率瓶颈制约。o1和o3在ARC-AGI-1上通过增加测试时的推理计算量，显示出对数级别的准确性改善，而不同的计算分配方式会调整这条曲线的X轴。

DeepSeek最有趣的地方，在于他们单独发布了R1-Zero。这个模型完全甩开了对人类专家标注（SFT）的依赖，转而完全依靠强化学习来驱动。从数据上看，R1-Zero和R1在ARC-AGI-1上的得分高度一致（14% vs 15%），在其他基准如MATH AIME 2024上也表现出一致性（71% vs 76%，相比基础版本DeepSeek V3的40%提升显著）。这意味着什么？

1. 在拥有强大验证机制的领域，完全不需要SFT来进行准确且可读的CoT推理。R1-Zero的训练过程，能够通过强化学习在令牌空间内自主创建自己的内部领域特定语言（DSL）。

2. SFT有助于提升CoT推理的领域广泛性。

这其实很符合直觉：语言本身正是一种推理领域特定语言。完全相同的“词语”可以在一个领域学习后，应用于另一个领域，就像一段程序。纯粹的强化学习方法目前还无法发现一个广泛共享的词汇库，这毫无疑问将成为未来研究的重点。

归根结底，R1-Zero展示了一个潜在的“零人为瓶颈”的扩展模式原型——即使是在训练数据的采集过程本身也是如此。DeepSeek的目光几乎肯定已经投向了OpenAI的o3系统。一个值得深思的问题是：SFT是否会成为最终添加CoT搜索和抽样的必要条件？或者，是否存在一个假设的“R2-Zero”，它以相同的对数精度vs推理规模曲线存在？根据R1-Zero的结果，可以推断，在这个假设的放大版本中，不需要SFT就能击败ARC-AGI-1。

3 经济学的可靠性

从经济学的角度看，人工智能领域正在发生两大重大转变。

首先，你可以花更多的钱来获得更高的准确性和可靠性。训练投入正在向推理投入转移。但这并不意味着对计算需求的减少，恰恰相反，它们将大幅增加对计算的需求。

其次，AI推理系统承诺带来的回报远不止在基准测试上的更高准确性。阻碍更多AI自动化应用（比如推理需求）的首要问题，其实是可靠性。与数百个尝试在企业中部署AI智能体的客户交流后，反馈高度一致：“我们还不敢信任它们，因为它们工作时不可靠。”更强的泛化能力意味着适应未知情况的能力，而这正是解决可靠性问题的关键。现在，我们已经开始看到证据表明这一观点是正确的。多家人工智能公司（Anthropic、OpenAI、Apple等）正在引入智能体系统，这将由于可靠性需求，驱动重要的近期推理需求增长。

简而言之，开发者可以选择投入更多计算资源来增加用户对系统的信任。更高的可靠性并不意味着100%的准确性——但你可以期待更一致地不准确。这没关系，因为当准确性低时，用户和开发者反而能更有信心地通过提示来引导行为。以前计算机无法解决的问题，现在都有了与之对应的价值。随着效率的提高，这些“价值门槛”只会越来越低。

4 推理作为训练

另一个主要转变是数据预训练的输入来源正在发生变化。过去，大多数数据要么是购买的，要么是爬取的，要么是从现有LLM中合成生成的（例如，通过蒸馏或增强）。所谓的“合成数据”，通常指通过LLM循环利用、整体质量偏低且收益递减的那部分。

但现在，推理系统和验证器提供了一个全新的选项：生成“真实”数据。我们可以创建全新的、合法的高质量数据来进行训练。这可以在离线状态下完成——由开发者付费创建数据；也可以在推理时完成——由最终用户支付！这是一次引人入胜的经济学转变。它暗示着，人工智能系统开发者中可能会出现一个拥有最多付费客户的失控权力集中点：这些客户为创造新的高质量数据买单，而这些数据又会改进模型，使其变得更好、更受用户喜爱……循环就此开始。

如果我们能突破人类专家与计算机之间的壁垒，并创建一个通过搜索、合成和验证来创造新数据的极其高效的系统，那么可以预见，海量的计算资源将投入到这些推理系统中。因为我们完全可以通过投入资金和原始数据来显著提升性能。最终，这种类型的人工智能训练，将彻底超越基于人类生成数据的传统预训练。

5 结论

市场调整还将继续，随着推理需求的增长，它会变得更加明显。人工智能系统的效率提升，只会推动更多的使用——这不仅仅是因为杰文斯悖论，更是因为随着效率的提高，全新的训练模式也会被解锁。

R1是开放且可复现的，这意味着更多的人和团队可以开始将CoT和搜索推向极限。这将更快地告诉我们，前沿究竟在哪里，并引发一波加速通往AGI的创新浪潮。已经有好几个人告诉我，他们计划在2025年的ARC奖项中使用基于R1风格的系统。对于最终结果，我感到非常兴奋。

R1的开放，对世界来说是一件伟大的事情。DeepSeek实实在在地推动了科学的前沿向前发展。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：深度探索R1比R1-ZERO更重要的原因要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/LargeLanguageModel/2025020125693.html

ai 人工智能

上一篇：DeepSeek o3-mini免费发布编程断崖式领先思考冷静客观

下一篇：忘掉提示词模板一个问题让DeepSeek回答效果翻倍

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。