数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

Hinton盛赞Gemini核心贡献者演讲：未来将有数十亿超级AI爱因斯坦

AI热点日报时间：2026-07-04

热点解读

人工智能能力从幼儿园水平飞速跃升至博士级别，已通过图灵测试并在数学奥林匹克和独立科学研究中取得重大突破。随着规模定律持续生效，未来可能出现数十亿超人级AI爱因斯坦，彻底重塑物理学研究方式。

前些天，Gemini 核心贡献者、Blueshift 团队负责人 Adam Brown 在圆周理论物理研究所做了一场长篇演讲，标题是《训练沙子思考：通用人工智能与物理学的未来》。这场演讲吸引了相当广泛的关注。他在演讲中讲了一个自己亲身经历的故事：他是如何亲眼看着 AI 从“幼儿园水平”一路狂奔到博士水平的，并且基于这个趋势，推演了一个问题——如果这条道路继续走下去，物理学究竟会变成什么样。

演讲标题：Training Sand to Think: Artificial General Intelligence & Future of Physics
演讲地址：https://www.youtube.com/watch?v=Mw60FH5iflI&t=3s

这场演讲还得到了诺贝尔物理学奖和图灵奖双料得主 Geoffrey Hinton 的大力推荐，老爷子直接用了“amazingly good”这个评价。能让 Hinton 说出这种话，分量可想而知。

在正式介绍这个演讲之前，得先聊聊演讲者本人——Adam Brown。他的履历，几乎就是一部“理论物理学家如何被 AI 改变命运”的活样本。

Brown 在牛津大学读的是物理与哲学的联合学位，随后在哥伦比亚大学拿到博士学位，之后先后在普林斯顿和斯坦福的物理系任教。在斯坦福，他教的是爱因斯坦的广义相对论，研究范围从大爆炸、宇宙暴胀、多重宇宙、黑洞、量子计算，一直延伸到听起来像科幻小说情节的“太空电梯”和“虚无泡泡（bubbles of nothing）”，甚至还研究宇宙的终极命运。与此同时，他长期关注物理学与计算机科学之间的深层联系。

2018 年，Brown 加入谷歌。现在，他领导着 DeepMind 内部一支名叫 Blueshift 的团队，核心任务是提升 AI 的科学与推理能力，他也是 Gemini 大模型的核心贡献者之一。

演讲开场时，他提到自己职业生涯里写过大概四十篇理论物理论文，但近几年已经 停笔了，不再手写论文。原因倒不是写不出来，而是他觉得一篇一篇手写论文，现在更像是一种“罪恶的享受”——他真正该做的事，是参与制造一台能够 “以工业规模”产出知识的机器。

这个开场白，直接给整场演讲定下了基调：一个身处“AI+科学”技术风暴中心的人，试图向同行的物理学家们描述风暴的真实形状。

我们也在 AI 的辅助下，对 Brown 这份精彩的演讲做了归纳总结。

从沙粒到会思考的机器

Brown 用一句话概括了人类文明此刻所处的位置：我们已经学会把沙子提纯成硅，把硅做成芯片，把芯片组装成神经网络，现在，又学会了训练这些神经网络去思考。

他特别强调了一个关键区别：这次和以往任何一种“计算工具”都不一样。从算盘到袖珍计算器，人类早就拥有过各种辅助科学研究的工具，但那些都是单点工具——只能替你完成流程里的某一步，剩下的还得人来做。

大语言模型（LLM）完全不同。它具备完成理论物理学家全部工作流程的潜力。这正是“通用智能”这个词的含义所在。Brown 的判断是，LLM 很可能就是人类用来构建通用人工智能的底层基质。

这里还有一个很少有人注意到的安静事实：他提醒听众，大家可能已经用过 ChatGPT、Gemini 或 Claude 这类聊天机器人，但未必意识到一件事——这些系统早在几年前就已经悄悄通过了图灵测试，而几乎没有人为这件事专门庆祝过。

神经网络是“养成”的，不是“编写”的

要理解大模型为什么和传统计算机程序完全不同，Brown 给了一个核心比喻：LLM 不是被 programmed 出来的，而是被 grown 出来的——它们更像是被培育长大，而不是被编写出来。

具体过程可以拆成两个阶段。

第一阶段叫做“预训练”。工程师们从一组随机连接、近乎乱语的人工神经元出发，让它不断尝试预测一段文本里“下一个词”会是什么。猜对了，就强化对应的神经通路；猜错了，就削弱它。这个过程极其漫长：看过一百万词时，模型说出来的话基本还是胡言乱语；读过几千万到几十亿词后，它已经能写出语法正确但略显生硬的句子；直到读完整个互联网——大概几十万亿词——它才能就几乎任何话题进行流畅、连贯的对话。

第二阶段叫做“后训练”，Brown 形容这是把模型“送进礼仪学校”。刚结束预训练的模型只会机械地预测下一个词，说话粗鲁且不服管教，后训练的任务就是教它变得礼貌、变得愿意配合用户，而不是单纯地接龙文字游戏。如今主流大模型的参数量已经从十年前的十亿级跃升到几万亿级，尽管仍远低于人脑大约百万亿个突触连接的规模，但这个规模已经足够让奇迹发生。

物理学家“不务正业”：Scaling Law 点燃了这场革命

Brown 特别提到，物理学家在这场 AI 革命的起点上扮演了一个意想不到的角色：带来了 “Scaling Law” 的思维方式。

物理学家天生痴迷于寻找简单的幂律关系。把爱丽丝的身高翻一倍，她的体表面积会变成四倍，体重则变成八倍，这是最简单的量纲分析；而克莱伯（Kleiber）在近一百年前发现的动物代谢率与体重的幂律关系，则是一个更微妙的例子——直到许多年后，物理学家才用血管系统的分形维度解释了它背后的原理。

更不用说著名的摩尔定律了。

2020 年，几位具有物理学背景的研究者把这种思维方式搬到了神经网络上，结果发现了一个惊人的现象：只要把训练用的算力、数据量和模型规模按比例放大，模型在“预测下一个词”任务上的表现，会沿着一条对数-对数坐标系下的直线稳步提升。

这条曲线后来被拓展了整整八个数量级，依然成立。

Brown 调侃说，这张图“简单到连风险投资人都能看懂”——它直接告诉资本市场：把钱（也就是算力）投进去，就能换来更强的模型。这条简单的曲线，正是过去六年 Scaling 时代的起点。

不过他也指出，算力堆量只是故事的一部分。过去十年，前沿 AI 训练所消耗的算力每年增长约四倍，训练投入的资金每年增长约 2.7 倍。

目前一次顶级训练所需的算力大约需要花费数亿美元，而美国全年 GDP 接近三十万亿美元——这意味着，这条曲线还有非常长的增长空间。

但比堆算力更重要的，是人类在算法层面的持续打磨。研究者们不断找出训练流程中的低效环节并加以改进，这才是过去十年 AI 进步背后真正的“第一引擎”。

基准测试的“短命史”：从学前班到博士

如果说 Scaling Law 解释了“为什么 AI 会变强”，那么一连串基准测试的兴衰，则记录了“AI 到底变强到了什么程度”。Brown 用一组测试成绩，描绘出一条令人目眩的曲线。

四年前，一个名叫 MATH 的高中数学题基准测试横空出世。研究者们找来一名不太擅长数学的计算机科学博士生应试，得分约 40%；又找来一位三届国际数学奥林匹克金牌选手，得分 90%。而当时最先进的大模型，只能拿到 6%——几乎和瞎猜没有区别，因为模型甚至读不懂题目在问什么。

当年的预测市场认为，到 2025 年模型成绩能达到 50% 就已经是“狂妄的乐观”了。基准测试的创建者本人甚至公开表示，如果真有模型能做到这一点，他会感到“相当震惊”。

结果呢？这个 50% 几乎是“立刻”就被一个名为 Minerva 的系统跨过去了。到 2024 年年中，Brown 团队的系统在该基准上拿到了 90% 的成绩。他们甚至专门去开了一场九十年代风格的轮滑迪斯科派对来庆祝。然而仅仅六个月后，市面上现成的大模型就近乎满分地解决了这套题目。MATH 基准测试就此“死亡”——它从“太难”直接跳到了“太容易”，中间几乎没有停留。

接下来倒下的是面向研究生的 GPQA 测试，它模拟博士第一年资格考试的难度，人类专家平均分约 70%。模型从接近随机猜测起步，在 2024 到 2025 年间一路冲过专家水准，如今几乎拿到满分。为了排除“模型只是把答案背下来了”的可能性，Brown 团队专门设计了未出现在互联网上的同分布新题，结果模型表现几乎没有下降。

Brown 甚至拿出了自己在斯坦福亲手批改的广义相对论和量子力学研究生期末考试——这些题目从未上网——结果模型同样在一年半内拿到了满分。他半开玩笑地说，这下连他自己出的考题，也“不幸阵亡”了。

此后倒下的基准测试名单越来越长，包括一度被称为“人类的最后考试”（Humanity's Last Exam）的超难度综合测试。

而最具标志性的一次跨越，发生在国际数学奥林匹克竞赛上。

跨过奥数的门槛

就在一年多前，一位图灵奖得主曾当面告诉 Brown，大模型永远无法解决国际数学奥林匹克（IMO）级别的题目，因为那需要真正的创造力，不是死记硬背就能蒙混过关的。IMO 的题目以“高中数学范畴内最难的题目”著称：全世界最聪明的十几岁少年要训练一两年才能上场，六道题里能拿到金牌的已是凤毛麟角。

去年夏天，这道门槛被跨过了。Brown 团队的系统在 IMO 级别测试中六题对五题，达到金牌水准。而且这套系统不是靠堆砌一长串无人能看懂的形式化证明硬蒙过关。IMO 主席在公开评价中表示，这些解答“在很多方面都令人惊讶”，评卷人认为它们清晰、精确，大多数都易于理解，使用了与人类相似的数学抽象方式。

当然，Brown 也坦率展示了大模型的“翻车现场”。

一个经典脑筋急转弯是：父子遭遇车祸，父亲身亡，孩子被送进手术室，主刀医生看到男孩后说“我不能给他动手术，他是我儿子”，问这是怎么回事（标准答案是医生是男孩的母亲）。这道题考验的是读者是否默认外科医生一定是男性。大模型对这道“网络爆款题”回答得游刃有余，因为它在训练数据里见过成千上万次。但当 Brown 把题目反转：母亲身亡，医生被特别注明是“男孩的父亲”，再问同样的问题时，模型却完全没有察觉题目已经反转，机械地套用了“医生是另一位家长”的标准答案。

Brown 说，这个案例暴露了模型训练方式留下的一种特有“癖好”。

“人马协作”：AI 写出数学家愿意联名的证明

跨过 IMO 门槛十个月后，Brown 团队完成了一项他认为意义更重大的工作：真正的、此前无人知道答案的数学研究。

去年九月，Brown 团队与几位职业数学家合作，采用了一种他称之为 “半人马式”（Centaur） 的协作模式——半人马是希腊神话里半人半马的生物，而在这里，“非人的那一半”换成了 LLM。

整个过程是一场持续的对话：模型提出候选证明思路，人类专家判断哪些有价值、引导模型继续深入，最终在人类指导下完成了一篇完整的数学论文。论文的合作者之一，是斯坦福大学教授、美国数学学会现任会长。这位教授给出的评价是，Gemini 提出的论证绝非对现有证明的简单重新包装，而是一种他本人也会为之自豪的洞见。

Brown 强调，这在当时——去年年底——已经是大模型在数学领域所能达到的最高水准。但他紧接着补充了一句：距离“最高水准”的真正含金量，这还差得很远。

真正的转折点：AI 独立攻克尘封八十年的猜想

进入 2026 年，情况急转直下——或者说，急转向上。Brown 用一句近乎挑衅的玩笑话开场：“就在上周，LLM 还没有做出过真正重大的数学突破。”现在，这句话已经不成立了。

这件大事很多人已经听说了。埃尔德什在 1946 年提出的“单位距离猜想”，八十年来被数学界普遍认为正方形网格构型已经是已知的最优解。OpenAI 内部一个大模型独立给出了一个反例，借助代数数论中的工具，构造出一系列点集，其单位距离对的数量超过了此前公认的上限。这相当于推翻了这一长期被信以为真的猜想。

值得一提的是，这个题并不冷门，之前很多人尝试过，但数学家们花了大量精力，却始终徘徊在“证明”而非“反证”的方向上。Brown 特别提到，菲尔兹奖得主高尔斯参与了对这一结果的复核工作，并给出了高度评价。

Brown 的判断是，这是 大模型在数学领域取得的第一个真正意义上的重大突破，而且他坚信这绝不会是最后一个——“闸门已经打开”。随着模型实力持续超越“制造突破所需的门槛”，他预计接下来会有更多类似的成果接连出现。

他半开玩笑地补充说，回头去看这道题之所以率先被攻克，大概是因为 它的题目结构恰好踩在了大模型的“舒适区”里。接下来，模型会先解决那些“对 AI 友好”的难题，再逐步攻克那些“不那么友好”的难题。

国际象棋给出的预言

为了让听众相信这条曲线还会持续上扬，Brown 拿出了一张乍看上去像是随手画的曲线图——一条持续向上攀升的直线。当然，这张图可不是他凭空画的，而是直接取自国际象棋计算机棋力随时间变化的真实数据，纵轴是衡量棋力的 Elo 等级分，横轴是年份。

Brown 梳理出国际象棋 AI 历史上的四个阶段：

最初是“玩具时代”，能让计算机下出一步合理的棋就已经算是奇迹；

接着是“工具时代”，计算机只能在残局计算或开局记忆等特定环节发挥作用；

再往后是“半人马时代”，当时全宇宙最强的棋力组合，是大师与计算机深度搜索能力的协作；

而现在，人类已经全面进入“超人时代”：顶尖棋手与计算机合作时，最优策略是干脆放手让计算机自己下。

Brown 认为，这四个阶段在科学研究领域几乎可以逐一对应。

这里面有几个规律值得特别注意。

第一个规律是：在同等综合实力下，计算机在战术、搜索速度上胜过人类，但在战略、“品味”判断上仍然偏弱。这恰好也是当前大模型在数学和物理研究中暴露出的特征——它们擅长套用既有的引理和技巧，不太擅长判断“整体方向该往哪走”，但这一短板正在快速缩小。

第二个规律是：训练 AI 下棋所需要“经历”的对局数量，远超人类一生能下的棋局总数，但因为机器能够不知疲倦地高速自我博弈，实际所需的“日历时间”反而远远短于训练一名人类棋手。

第三个规律是，计算机棋力一旦超越人类巅峰水平，就再也没有停下来——没有任何物理或逻辑上的理由让它恰好停在人类水平附近。

第四个值得安慰的事实是：国际象棋 AI 的崛起反而提升了人类棋手的整体水平。今天最强的人类棋手比历史上任何时期都更强，部分原因正是得益于向超强 AI 学习。而国际象棋这项运动本身，也从未像今天这样流行。

Brown 的暗示很明确：如果科学研究重复这条轨迹，人类很可能会先迎来完全自主的 “AI 科学家”，再之后是某种意义上的 “AI 爱因斯坦”……再往后会发生什么，他坦言已经超出了他能预测的范围。

哪怕进步就此止步，物理学也已经被重塑

Brown 也提出了一个值得警惕的“悲观假设”：如果大模型的能力从今天起完全停滞不前，会发生什么？

他直言，目前真正“行不通”的用法，是直接对模型说“请给我发明一套全新的量子引力理论”，得到的答案大概只是没有价值、读起来令人昏昏欲睡的“AI 废话”。

更普遍地说，当前大模型仍然存在四个明显短板：自主性低、学习速度慢、规划能力差、纠错能力弱。

Brown 坦承，这四项短板在过去一年都有显著改善，但无一彻底解决。也因此，一个能在每个学科的研究生考试里都拿满分的系统，却迟迟没能拿出可以被称为“重大突破”的成果。

在准备这场演讲时，他甚至专门把这一点画成了一条标着问号的“平直曲线”，自嘲式地承认这或许是整场演讲里唯一一张“没有持续上涨”的图。但他也补充说，等不到 2026 年结束，大家恐怕就要开始争论“重大突破”这个词到底该怎么定义了。事实证明，这一天来得比他自己预想的还要快。

不过，即便进步真的停在此刻，Brown 认为大模型已经足以彻底改变物理学研究的面貌。

他列出了几项早已成熟、且仍在持续进步的用法：

作为一名“不带评判色彩的私人导师”，可以在凌晨三点随时解答物理学家自己也说不清楚的知识盲区，而不必把世界级专家从睡梦中吵醒；

作为 编程助手，如今已经强到“被称为编程助手都显得有点侮辱”——许多过去被认为“不算编程问题”的物理问题，如今都可以被重新表述成代码问题来求解；

作为 文献检索工具，可以读完整个领域的论文库，直接告诉你某个想法是否已经被人做过；此外还能充当头脑风暴的伙伴。

Brown 总结说，大模型的核心优势在于：它速度快、覆盖面广、不知疲倦，而且可以被无限复制。培养一名物理学家需要花上几十年，而一旦训练出一个强大的模型，就可以同时运行成千上万个副本——这已经足够“彻底改变”这门学科了。

结语：物理学的黄金时代

在演讲的最后，Brown 给出了他对“为什么进步不会停止”的判断。

从宏观经济角度看，目前投入训练的资金占全球 GDP 的比例仍然很小，留出的增长空间还很充裕。从技术内部看，当前训练大模型的方法“远没有看起来那么精妙”。许多显而易见、却还没被认真尝试过的改进思路仍待挖掘。叠加持续涌入这个领域的人才和算力，Brown 判断，当前的模型架构和算力规模已经足以通向通用人工智能，即便没有全新的理论突破。

他也回应了一种流传已久的悲观论调，即大模型只会“模式匹配”、无法产生真正的新想法。

Brown 的看法是，如果把抽象层次拉得足够高，几乎所有看起来像“重大突破”的人类创造，本质上也是某种更高维度的模式匹配。这个领域反复印证的一句行话是：“这些模型就是想学”——无论理论上有多少看似合理的理由说明它们应该学不好，它们的表现却总能超出预期。

Brown 的结论是，接下来几年，我们会迎来人类与 AI 协作的“半人马”黄金时代：这些工具会被交到人类物理学家、数学家和各领域专家手中，共同开启一场科学与数学领域的新文艺复兴。

再往后，如果“造出一个 AI 爱因斯坦”这件事真的实现，由于复制一个训练好的模型几乎不需要额外成本，人类很可能很快就会拥有数以十亿计的“超人级 AI 爱因斯坦”同时运转。这听起来像是科幻小说，却正在发生。

Brown 说，长期来看，AI 到底会把物理学带向何方，他和所有人一样难以预测。他甚至认为，AI 能力的持续提升正在让整个世界的未来变得更难预测。但有一点他敢肯定：接下来的几年，将是物理学历史上最激动人心的一段时光。那些困扰了他整个职业生涯的问题，他预计会在不远的将来，一一得到解答。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：Hinton盛赞Gemini核心贡献者演讲：未来将有数十亿超级AI爱因斯坦要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://36kr.com/p/3880834484613121

Gemini

上一篇：宇树科技收购机器人祖师爷半数股权

下一篇：GoodListen基于AI的播客工具帮你轻松快速制作专业音频

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。