AI正式进入推理时代到底意味着什么
说实话,今年9月OpenAI发布的o1模型,算得上整个2024年最值得关注的一次模型更新。

这个模型的意义在于,它标志着AI的发展方向正在经历一次根本性的转向——从过去依赖大规模预训练带来的“快速思考”,切换到基于强化学习的“慢速思考”。换句话说,AI不再是单纯地“背答案”,而是开始学着“想问题”了。这种演化,很可能会催生出一大批全新的AI袋里应用。
这事儿要怎么理解,应该是眼下AI圈子里最受关注的话题了。前不久,红杉资本发了一篇文章,逐层拆解了AI转向推理能力开发背后的逻辑,以及接下来可能发生的变化。文章重点讨论了几个核心问题:模型强化推理能力,对AI行业的创业者到底意味着什么?对现有的软件公司影响有多大?作为投资者,哪些赛道更值得反赌?
01 让AI真正学会推理
前面提到的o1模型,内部代号Q*,也叫Strawberry,它最为关键的一个突破,是第一次让大模型具备了真正意义上的通用推理能力。这个能力的背后,靠的是“推理时间计算”。通俗点说,就是模型在给你答案之前,会多花点时间去“琢磨”一下。
过去,预训练模型的工作方式是海量数据喂下去,然后根据统计规律预测下一个词。这种方式很依赖训练阶段砸下去的时间和算力,但模型的推理能力其实非常有限。
而现在,通过推理时间计算,模型会在回应你之前“停下来思考”。这个“停下来思考”的过程,就是推理本身——它不再是机械地匹配,而是真正开始“想”了。
02 AlphaGo和大模型
那么问题来了:模型停下来的时候,到底在想什么?
要讲清楚这个,有必要回顾一下2016年3月在首尔发生的那场对局。AlphaGo对阵李世石,可以说是深度学习历史上最有标志性的时刻之一。那场比赛让人们意识到,AI不仅能模仿,还能思考。
和大模型一样,AlphaGo也经历了大量的预训练——它的数据库里装了大约3000万步人类棋谱和大量自我对弈的数据,用来模仿人类专家。但它不会像预训练模型那样给出一个“下意识”的落子,而是会花时间停下来思考。具体怎么做呢?在推理阶段,模型会在各种可能的未来局面中模拟搜索,给这些局面打分,然后选择那个预期分数最高的走法。AlphaGo思考的时间越长,表现就会越好。如果把推理时间压缩到零,它甚至赢不了最顶尖的人类棋手。但随着推理时间延长,它就越打越强,直到彻底超越人类。
回到大模型,要复制AlphaGo的成功并不容易。最大的难点在于,如何构建一个“价值函数”——或者说,给答案打分的函数。
下围棋这事相对简单:输赢是确定的,编程问题也一样。但你怎么给一篇文章打分?这就是为什么目前这种推理方式在编码、数学、科学这类偏逻辑的领域特别有效,但在写作这种开放式的领域就没那么强。
o1的关键思路,是围绕模型生成的“思维链”做强化学习。这其实已经很接近人类思考的方式了。比如,o1在被卡住的时候会知道“倒回去重来”——这是推理时间拉长之后才涌现出来的能力。它还能像人一样去思考问题,比如把球体上的点可视化来解决几何题,甚至能用人类未必会用的方式去解决编程竞赛中的问题。
现在研究团队正在不断强化模型的推理能力,尝试各种新思路来推动推理时间计算的发展,比如计算奖励函数的新方法、缩小生成器和验证器之间的差距。可以确定的是,深度强化学习又杀回来了,正在构建一个全新的推理层。
03 系统1与系统2有何不同?
从预训练驱动的本能反应(系统1),迈向更深层次、经过深思熟虑的推理(系统2),这是AI接下来要突破的方向。模型只靠“知道”是不够的,还得学会实时暂停、评估、推理和决策。
我们可以把预训练看作系统1。无论是AlphaGo下棋还是大模型预测文本,本质上都是一种模仿。模仿当然很强大,但它不等于真正的推理,尤其碰到复杂的新情况——特别是样本之外的情形——就抓瞎了。而这恰恰是系统2的强项,也是这波AI研究热点的核心。
当然,很多任务系统1就够用了。比如“不丹首都在哪”这种问题,想也想不出来,要么知道要么不知道,快速从记忆里匹配就是最好的方式。
但碰到数学或生物学上的突破性问题——那种需要深度思考、创造性解决问题的——快速的本能反应就没用了。这些进步,需要AI花更多时间,去进行更深入的思考。
04 新的扩展定律:推理竞赛已拉开帷幕
o1那篇论文里,有一个结论特别重要:诞生了一条新的扩展定律。
预训练LLM的扩展定律很好理解——数据和算力越多,模型表现越好。而o1的论文告诉我们,推理算力的扩展同样有效:给模型推理的时间越长,推理效果就越好。
想象一下,如果模型能思考数小时、数天甚至数十年,会发生什么?黎曼猜想能不能破?阿西莫夫《最后的问题》能不能给出答案?
这种变化,意味着我们将从大规模预训练集群的时代,走向一个“推理云”的世界——计算资源可以根据任务的复杂程度动态调配。
05 被证伪的两个预测
当OpenAI、Anthropic、Google和Meta这些巨头不断扩展推理层、造出越来越强的推理机器时,会发生什么?会有一个模型最终赢家通吃吗?
生成式AI市场刚兴起的时候,很多人预测,一家强大的模型公司将变得无所不能,甚至把应用层的机会也一并吃掉。现在回头看,这两个预测都站不住脚了。
先说模型层。竞争异常激烈,SOTA能力不断被刷新。有没有公司能通过广泛领域的自我博弈实现持续自我改进,目前还没看到确凿证据。但竞争的激烈程度是肉眼可见的:自OpenAI上一个开发者日以来,GPT-4的token价格已经跌了98%。
再说应用层。除了ChatGPT这个例外,大部分模型很难在应用层面形成真正的壁垒。
06 混乱的现实世界:定制认知架构
科学家规划并执行目标的方式,和软件工程师完全不同。甚至不同公司的软件工程师,工作方式也各不一样。
随着AI研究不断把模型推理能力的上限往上推,具体的应用落地依然是一个绕不开的课题。通用模型要真正落地到特定领域,远没有想象中顺利。
这时候就轮到“认知架构”出场了——通俗说就是你的系统如何去“思考”:接受用户输入、执行操作或生成响应的那套代码流程和模型交互设计。
以Factory公司为例,他们的每个“机器人”产品都有一套自定义的认知架构,专门用来模仿人类在特定任务上的思考方式。比如审查一个拉取请求、编写并执行迁移计划来更新后端服务。Factory的机器人会把所有依赖关系拆解开,提出相关的代码修改,补充单元测试,然后交给人类审查。批准通过后,会在开发环境里对所有文件执行一遍改动,所有测试通过就自动合并代码。整个过程和人类工作方式很像——分步骤完成,而不是直接给出一个黑盒答案。
07 应用层,或许是创业者的最佳选择
基础模型固然厉害,但缺点也同样明显。比如,大模型处理不了黑盒问题,幻觉也还没彻底解决。再比如,消费者面对一个强大的大模型时,经常不知道该问什么。这些问题,其实都是应用层的机会。
两年前,不少AI应用公司被嘲笑成“只是GPT-3上的一个包装器”。到今天,那些“包装器”已经被证明是构建持久价值最可靠的方式之一了。最初的“包装器”,已经进化成了“认知架构”。
应用层AI公司的价值,绝不只是给基础模型套了个UI。更重要的是,它们拥有复杂的认知架构——里面往往同时调用了多个基础模型,上面架着某种路由机制,还有用于RAG的向量数据库或图数据库、确保合规性的护栏,以及模仿人类思维方式的推理逻辑。
08 服务即软件
云计算的本质,是“软件即服务”,它把软件产业做成了一个价值3500亿美元的市场。
到了AI时代,一个类似的机会正在浮现。人工智能转型的本质,其实可以理解为“服务即软件”——AI公司用AI应用替代劳动力。这意味着,AI应用面对的可能是一个价值数万亿美元的服务市场。
劳动力替代具体是什么样子?Sierra是一个很好的例子。很多B2C公司会把Sierra(一家AI客服公司)的AI袋里放在自己网站上,直接和客户对话,解决问题,每完成一次服务拿到一笔报酬。这和传统软件按“席位”收费的模式截然不同。
这是不少AI公司追求的目标,但不是每个公司都能一步到位。一种新的模式正在出现:先以“副驾驶”的形式部署(人机协作),再逐步迭代到完全自动化。GitHub Copilot就是最典型的例子。
09 新一代袋里应用
随着生成式AI的推理能力越来越强,一种新类型的袋里应用正在涌现。这些应用层公司和云计算公司相比,画风完全不同:
云计算公司打的是软件利润的主意,AI公司盯的是服务利润。
云计算公司卖软件——按“席位”收费;AI公司卖工作——按“成果”收费。
云计算公司喜欢自下而上的传播、低摩擦的分销模式;AI公司则越来越多地走自上而下的路线,强调高接触、高信任的交付。
这些新型袋里应用正在知识经济的各个领域冒出来:
Harvey:AI律师
Glean:AI工作助理
Factory:AI软件工程师
Abridge:AI医疗文书记录员
XBOW:AI测试员
Sierra:AI客服
通过降低这些服务的边际成本,袋里应用正在不断扩展,甚至创造了全新的市场。
以XBOW为例,这家公司正在做AI“渗透测试员”。渗透测试就是对公司系统进行模拟网络攻击,过去因为人工测试成本太高,企业只能在特殊情况下才请人来测。而XBOW用基于最新推理LLM构建的自动化渗透测试,效果已经可以和最顶尖的人工渗透测试员相媲美。这不仅扩大了渗透测试的市场规模,也让各种规模的公司都有了持续进行渗透测试的可能。
10 这对SaaS世界意味着什么?
很多人都在关心一个问题:人工智能转型,会不会把SaaS公司连锅端了?
过去,因为AI能力绝大部分都来自模型层,很多人认为老牌SaaS公司背靠数据和分销优势,会笑到最后。初创公司的机会主要不是去挑战老牌软件公司,而是去追逐那些可以被自动化的市场空间。
但现在,这个判断不那么确定了。因为把模型能力转化成端到端的业务解决方案,需要投入大量工程资源。那么问题来了:AI企业会不会最终取代软件?Day.ai这个案例就很能说明一些东西。
Day是一款AI原生的CRM系统。过去,很多系统集成商通过配置Salesforce来满足客户需求,赚了不少钱。而Day只需要访问你的邮件和日历,再加上回答一页问卷,就能自动生成一个完全契合你业务的CRM。就凭这一点,就已经吸引了不少客户。
11 投资人应该投什么?
最后说说投资视角。作为投资者,AI产业怎么投?不妨看看目前的局面。
基础设施:这已经是巨头的竞技场,更多是战略博弈选择,不完全是经济利益驱动。对VC来说绝对算不上好选择。
模型:这是巨头和金融投资者的地盘。巨头拿资产负债表去换损益表,砸下去的钱通过计算收入回流到自己的云业务里。金融投资者则热衷于讲AI的宏大叙事。模型团队确实很强,但从微观经济学的角度确实很难看懂。
开发工具和基础设施软件:对战略投资者价值不大,反倒更适合VC参与。当年云转型的时候,这个领域跑出了15家年收入超过10亿美元的公司,AI时代也很可能复刻这个路径。
应用程序:这应该是VC最值得参与的方向。云计算转型期间,大约有20家应用层公司成立,年收入突破10亿美元。移动互联网时代也有大约20家。AI时代,大概率也差不多。
12 结束语
在生成式AI的下一个阶段,可以预见的是,推理方向的研发力量会逐步渗透到应用层,AI袋里会变得更强大、更复杂。
回到研发层面,推理和推理时间计算在可预见的未来仍会是核心驱动因素。这是下一场AI竞赛的主题。但需要警惕的是,在特定领域,收集真实世界数据来构建认知依然困难重重。正因如此,那些能把AI落地的“最后一公里”走通的公司,将会拥有巨大的价值。
展望未来,像Factory的机器人那样的多智能体系统,可能会迎来更大的发展空间。当我们真的模拟出了感知、推理和行动这一整套流程,用这样的方式去探索AI的可能性——说不定,这就是通往AGI的正确道路。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案
这三年,内网RPA项目接了不下二十个。每次开局都像闯关——断网、缺依赖、多机同步、定时执行、批量分发、源码保护、AI离线化,八个坑一个比一个深。今天把这些实战经验整理出来,希望能帮正在内网搞自动化的兄弟们少踩点雷。 一、内网无网络环境怎么部署RPA流程:先搞清楚什么叫“真离线” 很多工具宣传“支持本
水利工程师用WorkBuddy写洪水报告效率提升3倍
WorkBuddy开发者分享季 水利工程师AI提效实战:用WorkBuddy撰写洪水影响评价报告,效率提升3倍 WorkBuddy 效率 人工智能 开发工具 一、我是谁,为什么需要AI 先介绍一下自己——我是一名水利工程师,在湖南长沙的一家小型水利设计公司任职。当前行业环境不太
日志服务数据加工规则洞察仪表盘使用指南
数据加工诊断仪表盘 想实时掌握日志服务加工功能的运行状态?直接从加工列表页点击那个“规则洞察”按钮,仪表盘就会立刻呈现出来。入口就在那儿,不绕弯子。 跳转后,你可以按作业名称、实例ID或源LogStore来筛选任务状态。比如下边这张图,展示的是当前实例ID(90c9d47714dbb807d47c1
基于RFID的固定资产管理系统技术架构与工程实践
固定资产管理难题是众多企事业单位的普遍困扰,资产数量动辄数千件,且广泛分布于不同部门、楼层乃至园区。传统人工盘点方式在工程维度上始终面临三大关键瓶颈:采集效率低下、数据闭环中断、状态同步滞后。使用条码枪逐一扫描标签,识别距离通常不超过30厘米,操作人员需逐个寻找并扫描,盘点效率完全受限于人力。面对5
WorkBuddy实战用AI搭建A股智能盯盘助手省心高效
炒股的朋友们想必都深有体会——每天重复盯盘、查行情、分析板块轮动,这一整套流程下来耗费大量精力。手动翻查数据不仅身心俱疲,还很容易错过关键买卖节点。今天我们就来聊聊如何打造一款趁手的盯盘工具,借助AI替你分担这些重复性工作。 背景:盯盘的核心痛点 股民都有同感——每天不只要查询单只股票的实时行情,还
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2026-07-02 12:28
2026-07-02 12:27
2026-07-02 12:27
2026-07-02 12:27
2026-07-02 12:27
2026-07-02 12:27
2026-07-02 12:26
2026-07-02 12:26
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

