菲尔兹奖得主实测ChatGPT 17分钟生成数学论文级成果

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

菲尔兹奖得主实测ChatGPT 17分钟生成数学论文级成果

热心网友时间：2026-05-11

转载

如果AI的数学能力继续以当前的速度进化，整个数学研究界可能很快会面临一场根本性的变革。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

这是菲尔兹奖得主蒂莫西·高尔斯在深度体验了ChatGPT 5.5 Pro之后，为数学界，尤其是博士生们，拉响的警报。

事情源于这位剑桥大学的数学泰斗获得了一次抢先体验的机会。拿到这个“新玩具”后，高尔斯教授随手将几个加法数论领域的公开难题抛给了AI，本意或许只是试试深浅。

然而，接下来的发展完全超出了预期。

不到两个小时，这个AI独立完成了一项在他看来“完全有资格写入博士论文”的数学成果。整个过程，高尔斯没有提供任何数学层面的实质性指导。他的角色更像一个项目管理者：提出初始问题，对AI的思路给予“可以，继续”的反馈，最后要求其将成果整理成规范的LaTeX预印本格式。

这一刻带来的冲击是真实的。当AI已经能够独立攻克这个级别的难题，那些正在攻读博士学位、将青春投入艰深研究的年轻数学家们，他们的未来路径在哪里？连高尔斯自己也坦言，他给不出清晰的答案。

唯一能确定的，是必须尽快为学生们寻找新的定位。在通用人工智能真正降临之前，重新锚定数学学习的核心价值，并迅速转向。他认为，对学生负有责任的数学系，应该为此紧急做好准备。

不过，另一位菲尔兹奖得主陶哲轩，对此则有更多话要说。作为长期活跃在AI与数学交叉前沿的先锋，他近期联合创立了AI4S组织，正是为了探索AI时代的科研新范式。他最新的思考指向一个核心：数学证明的“消化”过程，可能才是人类数学家在未来最不可替代的价值。

两位顶尖学者，面对同一场技术风暴，提供了不同维度的观察。

相比早已是“AI老玩家”的陶哲轩，高尔斯的这次反应或许更值得玩味。他用了“瘫软”来形容自己的感受，并撰写了一篇极其详尽的长文来记录和反思这次实验。

一场碘伏预期的数学实验

故事的起点是一篇有趣的论文。加法数论专家梅尔·内桑森在一篇论文中列举了许多关于整数集合求和性质的公开问题。这类问题方向明确、难度适中且数量众多，传统上被认为是博士生入门、争取首篇顶级期刊发表的绝佳练手材料。

结果，它们成了高尔斯测试ChatGPT 5.5 Pro的考题。

他抛给AI的问题大致是：给定一个包含k个元素的整数集合A，如果已知其“二重求和集”（即集合中所有元素两两相加得到的新集合，记为2A）的大小，那么集合A的直径（最大元素与最小元素之差）最小可能是多少？内桑森本人已经证明了一个指数级的上界，但他一直怀疑这个上界可以优化。

ChatGPT 5.5 Pro思考了17分零5秒。

随后，它给出了一个二次上界的构造方法，并且这个构造在理论上是紧的、最优的。其核心思路是组合使用西顿集和等差数列。

通俗地说，就像搭积木。AI选择了两类特殊的“积木块”：一类叫西顿集，其特点是集合内任意两个不同元素的和都互不相同，这使得求和集的规模能达到最大；另一类则是常见的等差数列。将这两种结构巧妙组合，便构造出了满足条件且直径最小的集合。

内桑森原来的证明使用了归纳法，本质上也在做组合，但用的是2的幂次方这种效率较低的西顿集。这就好比用大块积木搭建小房子，难免浪费空间，因此得到了指数级的大直径。而ChatGPT 5.5 Pro直接换用了一种已知的、更高效的西顿集构造，其直径是二次级的，比指数级小了不止一个数量级，相当于用精巧的小积木精准搭建，空间利用率极高。

或许有人会说，这不过是把已有的数学工具重新组合了一下。确实如此。但高尔斯也承认，相当多的人类数学研究，本质也是在组合已知的知识和证明技巧。关键在于，内桑森本人没有想到这一步，而ChatGPT想到了。

高尔斯接着又问了一个相关的升级版问题——如果将二重求和集替换为“限制求和集”（即求和时不允许元素自身相加），其他条件不变，是否还能找到最小直径？这个问题也毫无悬念地被解决了。随后，他让ChatGPT将两个结果合并撰写成一篇学术笔记。47分钟后，一份标准的LaTeX预印本便生成了。

随后，实验进入了更深的层次。高尔斯提出了k重求和集直径的一般性问题。这个问题要困难得多，因为对于一般的k，学界甚至不完全清楚哪些求和集大小是可以实现的，缺乏基本的构造框架。麻省理工学院的学生艾萨克·拉贾戈帕尔曾在此问题上做了开创性工作，证明了h重求和集直径的指数级依赖关系。

高尔斯想看看GPT 5.5 Pro能否在艾萨克的基础上做出改进。没想到，AI上演了“两连跳”，还独创了“k-解离集合”的构造。整个过程的时间线如下：

第一轮，ChatGPT思考了16分41秒，基于解离集合的新思路，将上界从指数级改进到了亚指数级。第二轮，高尔斯要求写成预印本，耗时47分39秒。第三轮，艾萨克本人审阅后认为论证看起来正确，且逻辑严谨，k-解离集合的运用很巧妙。第四轮，高尔斯“贪心”地询问能否进一步推进到多项式界。第五轮，ChatGPT思考了13分33秒，提出可以通过微调k-解离集合来实现，但有几个技术细节需要验证。第六轮，高尔斯让它自行验证，9分12秒后核心卡点被解决。第七轮，写成预印本，耗时31分40秒。第八轮，艾萨克再次审阅，判断结论基本成立。他特别指出，不只是每一步推导正确，在整体思路上也是对的，这意味着ChatGPT确实贡献了新的想法。

而整个过程中，高尔斯在数学上的输入为零。他所做的全部工作就是扮演一个“项目经理”的角色：提出需求、确认方向、要求交付。所有的数学工作，均由ChatGPT独立完成。

被抬高的门槛与悬置的成果

如果这仅仅是一个酷炫的技术演示，或许还不至于引发深层次的焦虑。但高尔斯从中看到了两个迫在眉睫的危机。

首先是一个极其现实的问题：这个由AI主导完成的数学成果，该如何处理？

如果这是人类数学家的作品，它完全达到了学术发表的水平。但如今主要贡献者是AI——预印本平台arXiv已明确拒绝AI生成内容，传统学术期刊显然也不会接受。那么，它该归于何处？高尔斯设想，或许未来需要建立一个专门的AI数学成果仓库，并配以一定的审核流程，例如需要人类数学家确认正确性，或经过形式化证明助手的验证，同时避免审核本身成为过重的负担。

坦率地说，这个问题目前尚无答案。因此，这项成果目前只能挂在高尔斯的个人博客上，仅以一个链接的形式存在。

比成果归属更让高尔斯焦虑的，是数学人才培养体系可能遭遇的“釜底抽薪”。

训练博士生从事研究，最经典的路径就是给予新手一个难度适中的公开问题作为入门。内桑森论文中的那些问题，原本就是完美的“新手村”素材。但现在，ChatGPT 5.5 Pro用两个小时就解决了其中一个。这直接抬高了入门门槛：以前，你只需要证明一个尚未被人证明的命题；现在，你可能需要证明一个连AI也证明不了的命题。

高尔斯并未陷入完全的悲观，他指出了两个可能的缓冲地带。

其一，博士生同样可以成为AI的使用者。未来的科研门槛可能不再是硬扛“AI解不出的题”，而是在人机协作中，做出AI单独无法完成的成果。高尔斯本人近期就在大量进行这类人机协作的数学探索。他表示，AI确实能提供有价值的贡献，但目前尚未达到能独立产生碘伏性想法的地步。

其二，AI最容易取得突破的领域可能是组合数学。因为组合学在本质上是从问题出发的反向推理，而其他数学分支更多依赖于从想法出发的正向探索。后者需要判断哪些观察是有趣的、哪个方向值得深挖，这种基于数学“审美”的判断对目前的AI而言可能更为困难，人类仍占据优势。

但他也特别强调，以上判断仅适用于当下的AI。大模型迭代速度太快，现在的结论或许几个月后就会过时。他甚至略带扎心地指出：如果一个人从事数学研究的目的，是将自己的名字永远镌刻在某个定理或定义上，追求“冠名永生”，那么这种时代红利可能很快就会彻底消失，对所有人都一样。

高尔斯用一个思想实验点明了本质：假设一位数学家通过与AI长时间对话解决了一个重大难题，数学家起到了引导作用，但核心想法和全部技术性工作均由AI完成，我们会认为这是该数学家的重大成就吗？高尔斯的答案是：不会。

既然如此，在AI时代学习数学的意义何在？高尔斯认为，就像优秀的程序员比普通人更擅长“氛围编程”，真正做过研究的数学家也更擅长与AI协作。因为你对问题解决过程的理解越深刻，你驾驭AI的能力就越强。数学本身是一种高度可迁移的底层思维能力。未来，数学研究者或许将失去独享定理冠名权的学术荣誉，但在此过程中沉淀下来的思维功底，将成为AI时代个人最坚实的底气。

消化，而非吞咽

事实上，关于AI对数学研究的冲击，陶哲轩很早就开始了观察与思考。他近期提出了一个“金字塔”模型，将数学问题的解决拆分为三个组成部分：证明生成、证明验证、证明消化。

前两者——生成完整的证明和验证其正确性——AI正在以惊人的速度实现自动化。但第三层“消化”，即真正理解这个证明在说什么、为什么是对的、它揭示了什么更深层的结构，则远未被解决。

这将引发一种前所未有的“认知过载”：证明像流水一样被大量生成，甚至机器都能帮你验证完毕，但却没有人真正去消化它们。陶哲轩称之为“证明消化不良”。

对此，或许有人会提议：那就把第三步也自动化掉，训练AI用更优的数学写作风格来呈现证明，使其更易理解。但陶哲轩指出，盲目优化“可读性”指标，可能反而让最终产物变得更糟。

他用烹饪来类比。我们咀嚼食物，是为了帮助消化。烹饪技术可以让食物更嫩，减少咀嚼的需要。但如果你决定彻底优化消化过程，将“需要咀嚼的量”降到最低，那么逻辑上的最优解就是——把所有食物丢进搅拌机，打成流质通过管子直接灌入胃中。

这在技术上确实“解决”了消化问题。但没有人想这样吃饭，无论身体还是精神都会出问题。饮食的价值从来不只是营养摄入。感官体验、社交场景、咀嚼本身带来的满足感……这些“附加产物”，才是人类享受饮食的关键。优化掉所有“摩擦”，你得到的不是更好的饮食，而是一根饲料管。

数学学习亦然。必须分清什么是数学学习中“必须”经历的摩擦。有些证明中的“难度”是人为制造的，比如措辞不清、结构混乱。这些“人工难度”，用AI辅助阅读确实可以消除，就像把一块肉腌制得更嫩。但还有一种“自然难度”，它本就应该是难的。读者需要“咀嚼”它，才能获得真正的理解，并可能在这一过程中迸发新的灵感。这就像陶哲轩曾在播客中提到的，他会故意在日程表中留出空白时间，用于“不期而遇”。

或许还会有人说：让AI解决一切，继续优化评判标准，把“自然难度”也纳入考量不就好了？但事实上，并非所有问题都能被简化为一个“优化问题”——并非无限迭代后得到的结果，就一定是人类想要的。人类对待食物的思路就不是这样。米其林大厨手工制作的料理，至今仍比机器加工的食品更受珍视，即使后者更安全、美观、易消化、方便且口味不差。这不是说加工食品没有用处，只是没有人会认真地提议用它完全取代人类的烹饪艺术。这其中的“烟火气”，必须由人类来赋予。

尾声：人类的墙角

两位菲尔兹奖得主，面对同一场风暴，看到了不同的景象。

高尔斯看到的是危机。那些为年轻数学家准备的“入门赛道”正在被AI碾平。培养体系的地基在动摇，学术发表的规则在失效。新人的道路在何方？

对此，陶哲轩也没有给出确切的答案，但他划出了一道边界。AI能生成证明，能验证证明，但“消化”，至少目前，仍是独属于人类的领域。不是AI绝对做不到，而是……我们不能交出去。这并非单纯的知识型任务，“消化”这件事，触及智能本身。

这真是一个属于“意义”追问的时代。AI正一步步将我们逼到墙角，迫使我们一次又一次地、无止境地追问：到底什么才是独属于人类的、最珍贵的东西？

在数学领域，这个东西可能就是陶哲轩所说的那种有益的“自然难度”。是那些必须靠自己咀嚼、煎熬地探索，才能真正内化为自身一部分的知识与智慧。或许，在其他领域同样如此。

搅拌机可以把一切打碎、混合、高效输送。但有些东西，永远需要人亲自去经历、去体悟、去“消化”。

不要沦为插着管子的生物电池。

参考链接：
[1] https://gowers.wordpress.com/2026/05/08/a-recent-experience-with-c h a tgpt-5-5-pro/
[2] https://x.com/wtgowers/status/2052830948685676605
[3] https://mathstodon.xyz/@tao/116551624228986501

来源:https://www.163.com/dy/article/KSLHJUM40511DSSR.html

上一篇：英伟达向OpenAI投资300亿美元加速人工智能全产业链布局

下一篇：张江AI材料创新闭门会5月举行诚邀行业精英参与