面包屑图标 当前位置: 首页
AI资讯
热点详情

O1 Pro思考过程深度技术分析(1)

AI热点日报
AI热点日报时间:2026-06-29
热点解读

**贤言碎语**:这是关于o1 pro思考过程技术分析的深度好文,没有之一。 核心内容: o1 Pro的外部表现特点 对实现方式的探讨 未来分析的展望 前言 本文关注的是o1 pro在推理阶段的过程探索,而非如何训练出这个模型。本质上,除了预训练之外,所有训练过程都是为了模型使用阶段的方式而设计和优

**贤言碎语**:这是关于o1 pro思考过程技术分析的深度好文,没有之一。

核心内容:

  1. o1 Pro的外部表现特点
  2. 对实现方式的探讨
  3. 未来分析的展望

对o1 pro思考过程的技术分析(1)

前言

本文关注的是o1 pro在推理阶段的过程探索,而非如何训练出这个模型。本质上,除了预训练之外,所有训练过程都是为了模型使用阶段的方式而设计和优化的。使用方式才是分析的核心目标,而post-training阶段的设计,则是为了优化使用阶段的表现。

关于降智,有一个需要警惕的问题:ChatGPT Pro账号仍然可能被降智。在测试o1 pro之前,务必确认账号处于正常状态。没有被降智的o1 pro有三个明显特征:

  • 思考阶段会显示一个矩形框,而不是o1的样式。
  • 矩形框中会显示一个没有具体数字的进度条。
  • 回答是一次性快速给出的,不像o1那样流式输出。

1、o1 Pro的外部表现

o1 pro最直观的特征,就是它那明显比o1更长的思考时间。但一个容易被忽视的关键点是:它并非流式地生成最终回答,而是在某个时间点突然放出整个答案。

如果仔细观察思考过程,会发现一个有趣的现象:在最后一个思考阶段结束后,会有一段较长的等待,然后答案就突然冒出来了。最终答案应该就是在这个等待阶段中生成的。

理论上,可以根据这个最后阶段的等待时间和最终输出答案的token数量,进行线性分析。在撰写本文前,原本计划具体完成这项分析,但由于缺乏好用的SSE请求dump工具,尝试自己写一个Chrome插件,3小时内也没搞定,只能作罢。虽然Chrome DevTools能看到EventStream的时间信息,但没有导出功能。感兴趣的读者可自行尝试。技术实力强的读者,可以考虑做一个记录SSE请求每个event到达时间的浏览器插件,对未来分析ChatGPT模型行为会很有用——尤其是在API放出之前的这段时间里。

等到o1 pro API正式发布,分析会容易得多,但目前还没有。

2、实现方式的分析

2.1、目的分析

o1 pro“不是流式生成回答,而是先在思考阶段生成回答,再一次性放出”这个特质,值得深挖。

相比o1的流式回答,这种方式显然用户体验更差——等待时间明显更长。所以,这一定是为了实现某种特定目的。

是为了更好地对输出结果进行风控审核吗?虽然确实能实现更严格的审核,但ChatGPT目前已有更平衡的方案:流式输出结果,同时并行审核,发现问题立即终止回答。既然已有这套体系,o1 pro没理由非要采用这种更笨重的方式来做审核。

虽然不是风控审核,但可以有把握地推测:在产生回答后,它又经历了一个额外过程,然后才放出最终结果。

一种最简单的可能性是:增加了一个反思阶段,让模型重新审查自己的回答,确认有无错误或可优化的地方。没问题就放行,如果有问题呢?那就要继续思考,更新回答,直到通过。这才是关键所在。

2.2、思考过程的终结条件

如果是上述情况,那么o1 pro就和o1以及其他已有的推理模型有了本质区别:

  • 它会知道在某个时机开始生成一个完整回答,而且这个回答被放在某种可快速提取、直接输出的结构中。
  • 生成完答案后,还存在一个语义检查过程,检查不通过,就继续改进。

尽管目前还没直接观察到它“继续改进”的案例,但这种情况大概率存在,需要后续收集更多样本来验证。

如果是这样,整个过程大致是:

[思考1] -> [回答1] -> [检查1] -> [思考2] -> [回答2] -> [检查2] -> ...

虽然仍是单路推理,但它跟o1那种token级别的单路推理有区别:这是一种基于Step的单路推理,还附带了语义判定结束的功能。虽然这个粒度不叫Thought,但它更接近一种“巨大Thought的单路ToT”。

2.3、结构化的Step?

有理由相信,直到o1正式版,LLM推理阶段的思考中大概率并没有结构化的Step或Thought。因为要做到通用且可扩展太难了,对大多数场景也不必要。o1的思考阶段和回答阶段,可以仅靠一些类似message边界的特殊token来区分,虽然已有粗略的结构化,但还很弱——只有两个阶段,没有复杂转换。所以仍然可以把o1看作没有结构化的方案,技术分析和token级方案没有差别。但如果2.2节的推测成立,仅看成非结构化的token级方案就不太合适了。

那么,这个方式在推理阶段具体如何实现?训练模型在生成回答后自动触发一个检查阶段?实际上,在各种场景下都稳定执行原有的检查prompt并不容易。

不必把视角锁定在纯模型的token输出层面。实际上,完全可以用逻辑上的workflow方式来组织这个过程:内部模型先生成思考阶段和回答阶段,然后引入另一个LLM请求,用额外的prompt检查回答是否足够好。如果不够好,就继续生成第二步的思考过程和回答,直到满足要求。

当然这只是逻辑层面的设计,不一定非要弄一个workflow或2-Agent。可以在整个message流中增加检查阶段message来实现。例如:



 # decode过程在answer message结束后自动插入

 # 如果需要改进,则生成第二轮thinking message
...
 ...

这种方式让review阶段能访问thinking阶段的内容。如果不希望这样,也可以像workflow那样重新组织message history进行检查。

到了这一步,虽然看起来还是单路的推理token流,但在逻辑上它已经算是基于message的agent了。而且,这种message方式能直接兼容o1模式。考虑到o1和o1 pro大概率是同一个模型的不同使用方式,这种通用性至关重要。

2.4、思考阶段的划分

o1和o1 pro的另一个可见特征,是会产生语义分段进度展示。

之前曾在“o1模型的技术分析(2):内部实现的更多信息”中,对思考进度的实现方式有过一些猜测。目前更倾向的观点是:内部可能产生了某种比message粒度更小的step,在thinking阶段可能有多个step,且完全由模型自行划分(这取决于训练阶段的数据构造方式)。

一方面,这种step的方式和上面的message结构化很接近。如果采用了message设计,再细化到step就很容易。另一方面,观察发现,即使是同样的任务,不同输入下,这个思考过程概要进行step划分的方式也常常不同——有时步骤很多,有时一个都没有,step的数量还与o1(不是o1 pro)的思考时间长短有关。这让人感觉更像是由模型自己生成的,而非外部旁路的思考概要模型做的语义划分。

可以推测,这种显式的step能帮助模型进行更长的思考。

对这个判断的置信度大约在60%左右。

2.5、关于多路推理

在“理解 o3 及其技术分析 [2024.12]”中提到,o3大概率是多路推理方案。考虑到o3的可能性以及上述分析,o1 pro应该不是多路推理。

2.6、其他可能性,canvas?

除了上述方案,还有没有其他可能性?确实不能完全排除。其中一种类似artifacts/canvas的方案:在思考过程中维护一个候选的回答文稿,并持续扩展和调整。直观上,这和Claude artifacts、ChatGPT canvas很相似。

这种方式和前面的message方案也有些类似——Claude artifacts也是每次重新生成完整回答。这时,answer message本身就是结构化的,其他部分结构化多少倒不重要。

但也可以像canvas或Cursor UI那样,先生成修订方案,再由独立进程合并到候选答案中。这时LLM更像是通过修订tool来操作一个文档。

目前不倾向于这种可能性——它更复杂、更难实现完善,也没有特别的必要性。

A、结语

整篇文章都是围绕“为什么o1 pro不是流式输出答案”这一点展开的技术分析。未来可能还会有新发现和思考,所以这篇标记为(1)。目前已经没有其他猜测了。

o1 pro的这个表现其实刚发布时就是这个样子,拖到最近才注意到。搜索一圈,目前还没看到其他人做类似的技术分析。

至此,对o1、o1 pro、o3的实现方式,已经有了一个大概的猜测框架。这个系列总算填完了坑。

不知道何时才能验证这些想法——也许永远都不会知道OpenAI到底是怎么实现的。

B、相关阅读

  • o1模型的技术分析(1)——OpenAI亲自下场做的Agent推理模块的技术原型
  • o1模型的技术分析(2):内部实现的更多信息
  • 展望o1路线的可改进方向
  • 理解 o3 及其技术分析 [2024.12]
热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:O1 Pro思考过程深度技术分析(1)要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/finetuning/2025012003591.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-05 09:03
京东发布智能体自主支付协议 AI花钱权限分六级

京东近日发布了国内首个专门为智能体自主支付设计的协议——A2P2协议。该协议将AI支付自主化程度系统性地划分为L0至L5六个等级,重点聚焦L3和L4级别,让智能体能在用户设定的规则边界内自主完成支付。为确保安全,协议首创了ARI机制,在支付时实时核验用户、智能体身份及运行环境,并采用资金账户隔离设计

AI热点2026-07-05 09:03
VGN霓虹75 Air磁轴键盘 单模259元起 电竞性能

VGN推出新款霓虹75Air磁轴键盘,单模有线版售价259元,三模无线版售价339元。该键盘采用75%配列,搭载天霸Air轴,主打电竞级性能,支持8kHz回报率、128kHz扫描率以及0 1ms低延迟,并具备0 005mm精度的RapidTrigger快速触发功能。外观上配备雾透键帽与霓虹灯带,

AI热点2026-07-05 09:03
爱国者御风F90机箱上市:十字散热风道可装10风扇

爱国者御风F90机箱上市,采用十字散热风道与MESH网孔面板,最多可装10个风扇,支持顶部和前部360水冷。兼容ATX主板,CPU散热器限高170mm,显卡限长395mm,提供2个3 5英寸和2个2 5英寸硬盘位,有黑、白两色可选。

AI热点2026-07-05 09:02
北京81战术方盒子SUV预售价20万起申报信息公布

北京越野BJ81“战术方盒子”硬派SUV的申报信息于近日公布。新车采用标志性方盒子造型,提供6座布局,车身尺寸为4850×2050×1975mm,轴距2810mm。本次申报新增了运动版BJ81VJ,升级22英寸轮圈、305 45宽胎等运动套件。动力方面搭载1 5T增程系统,电池来自宁德时代。新车预售

延伸阅读