AI正式进入推理时代到底意味着什么

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI教程

AI正式进入推理时代到底意味着什么

热心网友时间：2026-07-01

转载

说实话，今年9月OpenAI发布的o1模型，算得上整个2024年最值得关注的一次模型更新。

AI正式进入推理时代，意味着什么？

这个模型的意义在于，它标志着AI的发展方向正在经历一次根本性的转向——从过去依赖大规模预训练带来的“快速思考”，切换到基于强化学习的“慢速思考”。换句话说，AI不再是单纯地“背答案”，而是开始学着“想问题”了。这种演化，很可能会催生出一大批全新的AI袋里应用。

这事儿要怎么理解，应该是眼下AI圈子里最受关注的话题了。前不久，红杉资本发了一篇文章，逐层拆解了AI转向推理能力开发背后的逻辑，以及接下来可能发生的变化。文章重点讨论了几个核心问题：模型强化推理能力，对AI行业的创业者到底意味着什么？对现有的软件公司影响有多大？作为投资者，哪些赛道更值得反赌？

01 让AI真正学会推理

前面提到的o1模型，内部代号Q*，也叫Strawberry，它最为关键的一个突破，是第一次让大模型具备了真正意义上的通用推理能力。这个能力的背后，靠的是“推理时间计算”。通俗点说，就是模型在给你答案之前，会多花点时间去“琢磨”一下。

过去，预训练模型的工作方式是海量数据喂下去，然后根据统计规律预测下一个词。这种方式很依赖训练阶段砸下去的时间和算力，但模型的推理能力其实非常有限。

而现在，通过推理时间计算，模型会在回应你之前“停下来思考”。这个“停下来思考”的过程，就是推理本身——它不再是机械地匹配，而是真正开始“想”了。

02 AlphaGo和大模型

那么问题来了：模型停下来的时候，到底在想什么？

要讲清楚这个，有必要回顾一下2016年3月在首尔发生的那场对局。AlphaGo对阵李世石，可以说是深度学习历史上最有标志性的时刻之一。那场比赛让人们意识到，AI不仅能模仿，还能思考。

和大模型一样，AlphaGo也经历了大量的预训练——它的数据库里装了大约3000万步人类棋谱和大量自我对弈的数据，用来模仿人类专家。但它不会像预训练模型那样给出一个“下意识”的落子，而是会花时间停下来思考。具体怎么做呢？在推理阶段，模型会在各种可能的未来局面中模拟搜索，给这些局面打分，然后选择那个预期分数最高的走法。AlphaGo思考的时间越长，表现就会越好。如果把推理时间压缩到零，它甚至赢不了最顶尖的人类棋手。但随着推理时间延长，它就越打越强，直到彻底超越人类。

回到大模型，要复制AlphaGo的成功并不容易。最大的难点在于，如何构建一个“价值函数”——或者说，给答案打分的函数。

下围棋这事相对简单：输赢是确定的，编程问题也一样。但你怎么给一篇文章打分？这就是为什么目前这种推理方式在编码、数学、科学这类偏逻辑的领域特别有效，但在写作这种开放式的领域就没那么强。

o1的关键思路，是围绕模型生成的“思维链”做强化学习。这其实已经很接近人类思考的方式了。比如，o1在被卡住的时候会知道“倒回去重来”——这是推理时间拉长之后才涌现出来的能力。它还能像人一样去思考问题，比如把球体上的点可视化来解决几何题，甚至能用人类未必会用的方式去解决编程竞赛中的问题。

现在研究团队正在不断强化模型的推理能力，尝试各种新思路来推动推理时间计算的发展，比如计算奖励函数的新方法、缩小生成器和验证器之间的差距。可以确定的是，深度强化学习又杀回来了，正在构建一个全新的推理层。

03 系统1与系统2有何不同？

从预训练驱动的本能反应（系统1），迈向更深层次、经过深思熟虑的推理（系统2），这是AI接下来要突破的方向。模型只靠“知道”是不够的，还得学会实时暂停、评估、推理和决策。

我们可以把预训练看作系统1。无论是AlphaGo下棋还是大模型预测文本，本质上都是一种模仿。模仿当然很强大，但它不等于真正的推理，尤其碰到复杂的新情况——特别是样本之外的情形——就抓瞎了。而这恰恰是系统2的强项，也是这波AI研究热点的核心。

当然，很多任务系统1就够用了。比如“不丹首都在哪”这种问题，想也想不出来，要么知道要么不知道，快速从记忆里匹配就是最好的方式。

但碰到数学或生物学上的突破性问题——那种需要深度思考、创造性解决问题的——快速的本能反应就没用了。这些进步，需要AI花更多时间，去进行更深入的思考。

04 新的扩展定律：推理竞赛已拉开帷幕

o1那篇论文里，有一个结论特别重要：诞生了一条新的扩展定律。

预训练LLM的扩展定律很好理解——数据和算力越多，模型表现越好。而o1的论文告诉我们，推理算力的扩展同样有效：给模型推理的时间越长，推理效果就越好。

想象一下，如果模型能思考数小时、数天甚至数十年，会发生什么？黎曼猜想能不能破？阿西莫夫《最后的问题》能不能给出答案？

这种变化，意味着我们将从大规模预训练集群的时代，走向一个“推理云”的世界——计算资源可以根据任务的复杂程度动态调配。

05 被证伪的两个预测

当OpenAI、Anthropic、Google和Meta这些巨头不断扩展推理层、造出越来越强的推理机器时，会发生什么？会有一个模型最终赢家通吃吗？

生成式AI市场刚兴起的时候，很多人预测，一家强大的模型公司将变得无所不能，甚至把应用层的机会也一并吃掉。现在回头看，这两个预测都站不住脚了。

先说模型层。竞争异常激烈，SOTA能力不断被刷新。有没有公司能通过广泛领域的自我博弈实现持续自我改进，目前还没看到确凿证据。但竞争的激烈程度是肉眼可见的：自OpenAI上一个开发者日以来，GPT-4的token价格已经跌了98%。

再说应用层。除了ChatGPT这个例外，大部分模型很难在应用层面形成真正的壁垒。

06 混乱的现实世界：定制认知架构

科学家规划并执行目标的方式，和软件工程师完全不同。甚至不同公司的软件工程师，工作方式也各不一样。

随着AI研究不断把模型推理能力的上限往上推，具体的应用落地依然是一个绕不开的课题。通用模型要真正落地到特定领域，远没有想象中顺利。

这时候就轮到“认知架构”出场了——通俗说就是你的系统如何去“思考”：接受用户输入、执行操作或生成响应的那套代码流程和模型交互设计。

以Factory公司为例，他们的每个“机器人”产品都有一套自定义的认知架构，专门用来模仿人类在特定任务上的思考方式。比如审查一个拉取请求、编写并执行迁移计划来更新后端服务。Factory的机器人会把所有依赖关系拆解开，提出相关的代码修改，补充单元测试，然后交给人类审查。批准通过后，会在开发环境里对所有文件执行一遍改动，所有测试通过就自动合并代码。整个过程和人类工作方式很像——分步骤完成，而不是直接给出一个黑盒答案。

07 应用层，或许是创业者的最佳选择

基础模型固然厉害，但缺点也同样明显。比如，大模型处理不了黑盒问题，幻觉也还没彻底解决。再比如，消费者面对一个强大的大模型时，经常不知道该问什么。这些问题，其实都是应用层的机会。

两年前，不少AI应用公司被嘲笑成“只是GPT-3上的一个包装器”。到今天，那些“包装器”已经被证明是构建持久价值最可靠的方式之一了。最初的“包装器”，已经进化成了“认知架构”。

应用层AI公司的价值，绝不只是给基础模型套了个UI。更重要的是，它们拥有复杂的认知架构——里面往往同时调用了多个基础模型，上面架着某种路由机制，还有用于RAG的向量数据库或图数据库、确保合规性的护栏，以及模仿人类思维方式的推理逻辑。

08 服务即软件

云计算的本质，是“软件即服务”，它把软件产业做成了一个价值3500亿美元的市场。

到了AI时代，一个类似的机会正在浮现。人工智能转型的本质，其实可以理解为“服务即软件”——AI公司用AI应用替代劳动力。这意味着，AI应用面对的可能是一个价值数万亿美元的服务市场。

劳动力替代具体是什么样子？Sierra是一个很好的例子。很多B2C公司会把Sierra（一家AI客服公司）的AI袋里放在自己网站上，直接和客户对话，解决问题，每完成一次服务拿到一笔报酬。这和传统软件按“席位”收费的模式截然不同。

这是不少AI公司追求的目标，但不是每个公司都能一步到位。一种新的模式正在出现：先以“副驾驶”的形式部署（人机协作），再逐步迭代到完全自动化。GitHub Copilot就是最典型的例子。

09 新一代袋里应用

随着生成式AI的推理能力越来越强，一种新类型的袋里应用正在涌现。这些应用层公司和云计算公司相比，画风完全不同：

云计算公司打的是软件利润的主意，AI公司盯的是服务利润。

云计算公司卖软件——按“席位”收费；AI公司卖工作——按“成果”收费。

云计算公司喜欢自下而上的传播、低摩擦的分销模式；AI公司则越来越多地走自上而下的路线，强调高接触、高信任的交付。

这些新型袋里应用正在知识经济的各个领域冒出来：

Harvey：AI律师
Glean：AI工作助理
Factory：AI软件工程师
Abridge：AI医疗文书记录员
XBOW：AI测试员
Sierra：AI客服

通过降低这些服务的边际成本，袋里应用正在不断扩展，甚至创造了全新的市场。

以XBOW为例，这家公司正在做AI“渗透测试员”。渗透测试就是对公司系统进行模拟网络攻击，过去因为人工测试成本太高，企业只能在特殊情况下才请人来测。而XBOW用基于最新推理LLM构建的自动化渗透测试，效果已经可以和最顶尖的人工渗透测试员相媲美。这不仅扩大了渗透测试的市场规模，也让各种规模的公司都有了持续进行渗透测试的可能。