面包屑图标 当前位置: 首页
AI资讯
热点详情

OpenAI o1致敬小镇做题家

AI热点日报
AI热点日报时间:2026-05-30
热点解读

OpenAI 的“草莓”项目自去年 11 月便开始炒作 Q*,预热周期接近一整年。直到近期,在 Cursor+Claude 带来的竞争压力与新一轮融资的双重催化下,o1 终于正式亮相。不少用户原本期待这会是微软 Copilot Wave 2 的预热前奏,结果 Copilot 依然基于 GPT-4o,

OpenAI 的“草莓”项目自去年 11 月便开始炒作 Q*,预热周期接近一整年。直到近期,在 Cursor+Claude 带来的竞争压力与新一轮融资的双重催化下,o1 终于正式亮相。不少用户原本期待这会是微软 Copilot Wave 2 的预热前奏,结果 Copilot 依然基于 GPT-4o,难免令人略感失望。

致敬小镇做题家的OpenAI o1

作为一名曾经的数学/信息学奥赛退役选手,本文将从 o1 是否真正指向一条通往 AGI 的路径入手,展开深度分析。同时,我也会从金融视角探讨 Scaling Law 如何为市场注入流动性,以及从云和芯片工程层面审视基础设施演进的趋势。至于具体的算法细节,后续会在《大模型的数学基础》专题中单独更新。全文结构如下:

目录

1. LLM = 自回归的 Large Language Monkeys 1.1 从预层范畴看 Scaling Law 的本质 1.2 训练 Scaling Law 的瓶颈 1.3 训练 Scaling Law 的本质是给市场注入流动性 2. Chain-of-Thought 2.1 从一个无趣例子开始 2.2 自动的隐式 CoT?新的 Scaling Law 2.3 Post Training Scaling Law 2.4 Inference Scaling Law 3. 小镇做题家? 3.1 算法的演进 4. 基础设施的影响 4.1 基础模型的大小 4.2 Long Context 成为刚需 4.3 训推基础设施界限越来越模糊 4.4 DSA/NPU/TPU 类芯片遇到问题

1. LLM = 自回归的 Large Language Monkeys

前段时间读到一篇来自 Google DeepMind、斯坦福大学和牛津大学的联合论文,标题为《Large Language Monkeys: Scaling Inference Compute with Repeated Sampling》。学习概率统计时,许多人应该都熟悉“almost surely”(a.s.)这个术语。该论文的灵感源于“无限猴子定理”:假设有无限只猴子在打字机上随机敲击,经过无限长时间,它们“几乎必然”能打出任何给定的文本,包括莎士比亚全集。

这里的“almost surely”意味着事件发生的概率为 1。换句话说,只要有足够多的计算资源和时间,就一定能产生期望的输出。假设词库大小为 10 万,要生成一段满足要求的 10 万词文本,概率极其微小。本质上,我们是在寻找一种算法来提高成功率、降低复杂度。与此同时,还需要一个能够鉴别对错的系统。

1.1 从预层范畴看 Scaling Law 的本质

《Scaling Laws for Autoregressive Generative Modeling》的核心,核心探讨“自回归”与“生成式模型”。Attention 机制与自回归结合,极大地剪枝了搜索空间;基于 Transformer 的 Attention 相比 LSTM/RNN,进一步提升了计算的并行性;再搭配 RLHF 约束,最终使生成的文本愈发逼近人类书写水平。

在《大模型时代的数学基础(2)》中,我们曾从范畴论角度审视过 LLM。范畴论中,函子范畴里最重要的例子就是预层(Presheaf)范畴,记为。大模型的预训练过程,本质上是利用尽可能多的数据,构建对象 A 与其他对象之间的 Attention 关系集合。这实际上是一个反变函子,即预层。可以说,模型的预训练过程就是在构造一个预层范畴。

由米田引理可知,对于局部小范畴上的预层,位于 C 中的对象 A,有。通俗讲,就是“人的本质是一切社会关系的总和”。

当这个函子完全忠实时,两个对象同构,当且仅当它们对应的 Hom 函子同构。由此可推论:对象由它与其他对象之间的关系完全决定

因此,Scaling Law 的本质在于:当我们拥有足够大的训练语料和足够强的算力时,可以通过词与词之间的关系构建一个 Foundation Model。这保证了能够有一个相对高效的、用于产生候选方案的 System 1。

1.2 训练 Scaling Law 的瓶颈

从实际训练角度看,Meta 训练 MoE 模型并不顺利,GPT-5 一再跳票,据说 Google Gemini 的训练也遇到困难。这些都意味着 Scaling Law 已经遭遇瓶颈。Meta 训练 405B 模型时,每三小时中断一次,如果扩展到 10 万卡的集群,中断频率可想而知。英伟达虽然在 Blackwell 中增加了 RAS 特性,但 NVL72 的可靠性在工程上依然是个巨大挑战。

算法层面,词表的生成与训练依然割裂。GPT-4o 的词表中就有不少敏感的词汇,至于中文分词,近期朋友圈流传的 GPT-4o 笑话也足以说明问题。训练 Scaling Law 本身,似乎未能跳出“自回归 Large Language Monkeys”的各种缺陷。OpenAI 的论文《Training Verifiers to Solve Math Word Problems》已指出,自回归模型在数学推理问题上很难更进一步,需要寻找额外的 Scaling Law。

1.3 训练 Scaling Law 的本质是给市场注入流动性

这一波 LLM 热潮中,技术本身的变革毋庸置疑,但资本市场也恰恰需要流动性来推高市值。Scaling Law 对算力的巨大需求,配合“almost surely”的叙事逻辑,很容易制造出一个巨大泡沫,仿佛“大力真能出奇迹”。

然而,OpenAI 的营收、费用与估值之间的差距说明,单靠“训练 Scaling Law”的故事已经快要讲不下去了。花费数亿美金训练出的模型,在 Gemini 和 Claude 的夹击下,资产价值折旧非常快,而推理的 ROI 并不理想。多模态“Her”的故事和 Sora 的长期跳票,都没能让市场买单。

上个月国内社交媒体都在谈论“大模型一叶知秋”,而在这个节点,o1-preview 的出现更像是为下一轮融资的估值提供流动性。这一次,Inference Scaling Law 或 Post-Training Scaling Law 能否为市场注入新一轮动力?金融机构还有多少耐心等待 AGI?接下来的章节会做进一步分析。

2. Chain-of-Thought

CoT 的作用,归根结底还是要从当前模型的自回归性质来看。对于一个待解决的问题,当模型拥有一个更接近正确答案的上下文时,自回归推理的准确度就会更高。

2.1 从一个无趣例子开始

用“9.8 和 9.11 谁大”这个问题来测试一下 Claude Sonnet 3.5:

Q: 9.8 和 9.11 谁大?
A: 要比较 9.8 和 9.11 这两个小数的大小,需要逐位比较:整数部分都是 9,相等。小数点后第一位分别是 8 和 1,8 比 1 大。通常情况下,比较到这里就能得出结论。但为了更严谨,可以继续比较小数点后第二位:9.8 没有第二位(可以看作 0),而 9.11 的第二位是 1。所以,9.11 大于 9.8。简单来说:9.11 > 9.8

换个提问方式:

Q: 9.8 和 9.11111 谁大?首先记录小数点后最长的位数 N,然后把两个数都乘以 10 的 N 次方,再相减,一步步比较结果。
A: 好的,我们来一步步解决:

  1. 确定小数点后最长的位数 N:9.8 有 1 位小数,9.11111 有 5 位小数,所以 N=5。
  2. 将两个数都乘以 10^5=100000:9.8*100000=980000,9.11111*100000=911111。
  3. 相减比较:980000-911111=68889。
  4. 分析结果:差值为正,说明第一个数更大。因此,9.8 大于 9.11111。

通过将小数转化为整数进行比较,避免了直接比较带来的精度问题。但这种方法似乎又让人回到了一个“人工”智能的时代。

2.2 自动的隐式 CoT?新的 Scaling Law

如果能自动生成一个类似于上述解题算法的 Prompt,问题不就解决了吗?但很多时候,我们对大模型的期待是,它应该能自己学会如何拆解问题、规划步骤,而不是完全依赖人来设计 Prompt 模板。

如果让输出结果看起来像人、以及一系列指令跟随能力,可以通过 RLHF 来实现,那如何对推理阶段产生的 CoT 进行评估和打分,并自动完成优化呢?答案很直接:多刷题,多了解解题套路。

这一步就引出了新的算力需求,也就是 Post-Training Scaling Law 和 Inference Scaling Law。

2.3 Post Training Scaling Law

这方面有像《STaR: Bootstrapping Reasoning With Reasoning》和《Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking》这样的工作。

STaR 的思路是利用 LLM 已有的逐步推理能力,生成中间过程输出,然后将正确的中间过程作为合理推理过程(Rationale),重新加入到 QA 对中,构建出 [Question, Rationale, Answer] 的形式,再进行微调。但这种算法泛化能力有限,对开放式任务效果不佳。

最近的 Quiet-STaR 提出了“内部思考”(Internal Thoughts)的概念,在模型内部引入 token 来标记思维的开始和结束。简单来说,Quiet-STaR 为每个 token 都生成一个 Rationale 来解释未来的文本,并将包含和未包含 Rationale 的预测 Token 混合在一起。

另一种思路是,在《谈谈大模型可解释性》中提到的 Sparse Auto Encoder(SAE)。当模型预训练完成后,可以通过 SAE 对生成的文本进行分析。利用 SAE 在 Post-Training 阶段对这些概念的关系特征来构建 Rationale,似乎也是一个可行的方向。

2.4 Inference Scaling Law

当前很多模型的推理阶段主要基于 Best-of-N 和 Beam-Search。DeepMind 上个月的一篇论文《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》提出,通过增加测试时的计算量来提高模型输出的质量。

具体做法是,在推理阶段不再要求模型一次做对,而是让它尝试“一题多解”,然后对多个答案进行评估打分,最终输出一个正确的结果。在评估答案时,同时引入对过程的评估,即 Process-based Reward Model(PRM)。在搜索方法上,采用了 Lookahead Search,本质上是 MCTS 的一种特殊形式。

这部分具体的算法细节,后面会在《大模型的数学基础》专题中再单独展开。

3. 小镇做题家?

从 o1-preview 的一些测试来看,代码能力和数学能力确实很强。但一个核心疑问是:这些能力是否真的能让最终用户觉得当前的 Token 定价是值得的?会不会又落入另一个“小镇做题家”的陷阱里?

从一个金融工作者的视角来看,日常工作中需要解决的问题,完全可以用更低的成本、更简单的算法来处理。而那些需要博士级水平才能解决的高价值问题,是否能够成为一个高频需求,从而产生与其估值相匹配的营收,这恐怕要打一个大大的问号。

举个例子,设计一个占用芯片面积足够小的 ScaleUP 可靠传输协议,从协议编码到拥塞控制算法设计,再到让 LLM 自动生成 RTL 代码,并在仿真环境中通过强化学习反复调优。暂且不谈自动生成 RTL 和环境调优的可行性,这个任务需要消耗多少 Token?Token 的定价是多少?是否真的能替代人力?这个问题,还有很长的路要走。

这其实就是对“小镇做题家”概念的拷问:考试分数可以刷得很高,但并不代表实际工作中解决问题的能力。例如,有篇文章《“博士级”模型 GPT-o1 折戟中学数学“陷阱”问题,准确率仅为 24.3%》,说明 o1 还存在大量的问题。

3.1 算法的演进

比较认同 Andrej Karpathy 的一个观点:当模型的思维链不再使用自然语言(比如英语)时,你就能知道强化学习已经正确地完成了

例如,针对数学问题,有《DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search》;针对算法类问题,有 DeepMind 的 NAR;在安全对齐过程中,OpenAI 也使用了 Rule-Based Reward。这些方向都值得深入探索。

4. 基础设施的影响

Scaling Law 的重心向 Post-Training 和 Inference 转移,必然会带来基础设施层面的变化。下面从几个方面来评估这种影响。

4.1 基础模型的大小

在训练 Scaling Law 遇到瓶颈、o1 带来“慢思考”能力的前提下,基础模型的参数量是否可以进行一定的妥协?例如,一个 70B 的模型,是否就已经足够通过 MCTS 产生正确答案了?相比 405B 的模型,在同等算力下,搜索的广度反而会更好。更进一步,能否使用 13B 左右的模型作为基础模型?这样就能把一些 A10/L20 等计算资源利用起来,进行更大规模的推理。

当然,在 MCTS 搜索过程中,通过有效的并行策略编排,推理的并行性也会进一步提升。就像 Quiet-STaR 中提到的 Parallel Generation。

4.2 Long Context 成为刚需

“慢思考”的出现,对模型自身的 Long Context 能力提出了越来越高的要求。推理和训练过程对存储的需求也会越来越高,GPU 需要通过 ScaleOut 网络上的 GDR/GDS 获得更大的外部存储能力。

4.3 训推基础设施界限越来越模糊

训推一体化的需求将变得更加强烈。对于高附加值问题的推理,也不再需要快速产生答案,而是逐渐变成一种半离线的业务。比如,当大模型真的能成为一个合格的投资理财顾问时,几十秒的等待时间也是可以接受的。

4.4 DSA/NPU/TPU 类芯片遇到问题

对于非 GPGPU 的芯片,这次变革可能会带来一系列性能问题。一旦“慢思考”的路径被打开,算法上就有很多可以探索的场景。非 GPGPU 芯片在算子算法实现和运行效率上,都会面临巨大的挑战。而随着稀疏算法和潜在 GNN 的引入,CPU 和 GPGPU 混合训练的潜在需求会出现。这些趋势,都值得我们关注 GB200 的架构设计和内在逻辑。

今日份的划水摸鱼,先到这里。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:OpenAI o1致敬小镇做题家要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/LargeLanguageModel/2024091872659.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-05-30 11:47
Three.js驱动3D互动虚拟展厅与ChatGPT虚拟人聊天

腾讯云基于Threejs搭建了3D互动虚拟展厅,集成ChatGPT虚拟人聊天功能,AINPC可理解用户意图并专业答复。该平台支持用户创建场景、多人实时互动、实时语音视频聊天,跨平台低消耗,已落地虚拟展厅、办公、会议室、校园等多种场景。

AI热点2026-05-30 11:45
Copilot整理访谈记录提示词:让AI给出修改理由

整理访谈记录时,要求AI输出修改理由需设计高颗粒度提示词:明确角色格式,限定理由具体到原文位置、认知逻辑或转录缺陷,约束禁止虚构修改,嵌入示例并强制分栏呈现,避免空泛表述。

AI热点2026-05-30 11:45
光耦输入输出非线性映射与工程实战深度解析

光耦输入与输出的映射具有非线性特性,包括低电流死区、线性工作区和高电流饱和区。电流传输比动态变化,高频传输受寄生电容和上拉电阻影响导致延迟。长期运行中红外LED老化引起CTR衰减,需采用降额设计确保系统稳定。

AI热点2026-05-30 11:44
Kimi联网搜索最新论文的学术指令集用法

Kimi学术搜索模式可通过Kimi+进入,构造含时间范围、数据库和文件类型的指令获得最新论文;上传论文片段触发反向溯源,启用探索版收紧时间粒度,利用DOI直连Crossref验证开放获取状态,确保结果精准可靠。

延伸阅读