陶哲轩推荐:11位顶尖数学家的未竟之作与关键突破
获陶哲轩转发,arXiv上的一篇新论文正在引起巨大关注!
挤进前排后发现,原来这是一项由11位全球顶尖数学家发起的AI实验——
让AI在规定期限内,解决他们各自在真实研究过程中产生的10道“研究级”难题,以此探索“AI+数学”的能力边界。
而且走的还是高斯时代的路子——人类先证明出来,但先不公布答案和过程,等到了合适时间再公开,避免AI偷偷看答案。
以前这是一项为保护数学家证明自己优先解决某道问题的做法,而在AI时代却有了新玩法。

在陶哲轩看来,这项实验非常有意思:
当前“一次性”AI提示似乎难以解决这些问题,但它们已被人类领域专家攻克。可以预见,配备AI工具的其他领域专家也能解决其中相当一部分。这些问题的技术门槛相当高,非领域专家难以验证AI生成的任何输出结果因此在我看来,要让非专家解决其中任何一个问题都极具挑战性——当然,意外惊喜也并非不可能。在截止期限前,这项实验能否产生任何显著成果,将十分值得关注。

好好好,既然老陶如此安利了,咱这就开扒完整实验过程(doge)。
解完10道数学题,然后…藏起证明过程
概括而言,通过提出一套名为First Proof的实验方案,这群数学家想做一件事——
检验当前AI系统,是否具备独立解决研究级数学问题的能力。

在这之前,虽然很多商用AI成了数学家手中的实用工具(如用于文献检索、代码编写、手稿校验等),但对于AI是否具备他们想验证的能力,学界始终缺乏相关清晰结论。
这背后一个很重要的原因,就是评测手段的缺失。
放眼市面上的数学AI基准,目前绝大多数都聚焦于竞赛题,此类题目虽然便于规模化测试,却与真实的数学研究存在本质差异(甚至可能存在数据污染问题)。
而数学家面对的真实情况往往是——
问题并非精确定义完成,解法也不存在明确模板,需要在大量试探、修正和结构性判断中逐步推进。
基于这样的背景,这群来自斯坦福、哥伦比亚、哈佛等高校及科研机构的数学家们齐聚一堂,设计了10道研究级数学问题,覆盖代数组合学、谱图论、代数拓扑、随机分析、辛几何等多个数学分支。
这里补充一下,一开始其实是20道题,不过按4个标准筛选后最终只留下了10道——AI能理解问题表述、无隐藏公开答案、作者同意按要求发布证明、每位团队成员仅贡献1道题。
完整10道题目指路论文以下位置:

论文表示,First Proof区别于现有基准的地方在于:
问题来自数学家当前研究中发现的真实疑问,答案为证明过程,需人类专家评分;问题全公开但答案无任何公开记录,供社区验证但不可重复使用,同时彻底消除数据污染;允许AI无限制使用网络搜索等外部资源,贴近真实研究场景。

划重点,这10道题均来自作者自身的研究过程,是未来发表成果中的小型核心引理,未在互联网、会议等任何公共渠道发布,从根源避免数据污染。
每道题的人类证明不超过5页(适配当前AI的技术限制),且加密发表于下面的这个 。

最终答案将于2026年2月13日公开,在此之前全球用户均可以用这10道题来测试他们想要考验的AI。
GPT和Gemini先来挑战一波
而在广发全球英雄帖之后,这群数学家也先自己测试了一波:
邀请GPT 5.2 Pro和Gemini 3 Deepthink,对10道题进行一次性作答测试。
他们明确表示,First Proof仅聚焦数学研究最后、也是最明确的阶段——
在问题表述和研究背景已经清晰给定的前提下,检验AI是否能够完成严谨的数学证明,而不评估AI提出研究问题、构建新理论框架或发明新定义的能力。
换言之,这是一场单纯的能力边界测试。在假设所有前期研究工作已经完成的情况下,看看AI能否独立走完“从命题到正确证明”的最后一公里。
而实验结果显示:
在当前公开可用的最佳AI系统,仅有一次作答机会的情况下,它们难以解答我们提出的多数问题
不过作者也预计,如果允许人类与AI反复对话、追问、引导,就很有可能让AI给出更好的答案。

再划重点,为了最大程度减少这一实验可能造成的数据污染问题,他们还有这样的举措:
我们关闭了用于训练和改进模型的数据共享选项,但我们知晓谷歌仍会保留数据3天,而OpenAI会保留30天。(即便如此)在整个过程中,我们始终尽力确保所提问题的答案保持私密。
未来,这群数学家也计划在数月内设计第二套问题集,并在实验设计上进一步收紧变量——
在与相关模型方达成明确协议的前提下,先让前沿AI系统完成测试,再统一公开问题与答案,从而将First Proof逐步发展为一个可复用、可比较的研究级数学能力基准。
在此基础上,实验设置也将逐步“去人工化”。例如,放宽当前对证明长度、表达形式等人为限制,引入来自不同数学分支的问题,使测试不再局限于某一类技术路径,而是覆盖更广泛的研究场景。
更进一步,作者也明确表示,长期目标并不只是评估AI在“解题”阶段的表现,而是逐步探索更高阶能力的评测方式,比如这次先忽略的提出新问题、构建新理论框架的能力。

不得不说,以上种种也符合陶哲轩一直以来对AI的判断——
未来的趋势不是AI代替数学家,而是讲求人机协作。
而First Proof的价值,也不在于给AI下一个“及格或不及格”的结论,而在于第一次用真实、未公开、研究级的问题,来试图界定AI当前所能触及的边界。
换言之,即使只完整解出一道题,也足以成为AI数学研究史上一个值得记录的节点。
就是这时间会不会有点太短了?(截止到2月13日)

论文:
https://arxiv.org/abs/2602.05192
答案加密地址:
https://1stproof.org/
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
VSCode集成OpenClaw插件右键菜单缺失解决方法
在VSCode里折腾了半天,右键菜单死活找不到OpenClaw的选项?别急,这问题十有八九出在插件、服务或者配置上。跟着下面这套排查流程走一遍,保证能让它“现身”。 一、先确认:你装的是正确插件(最常见坑) 首先得搞清楚,OpenClaw在VSCode的插件市场里不止一个。但只有特定版本才提供我们需
OpenAI开放AI模型代码与Claw工具详解
在AI应用开发的版图中,AI大模型、OpenClaw与OpenCode共同构成了一个从“思考”到“行动”的完整技术栈。我们可以将其形象地理解为:AI大模型是提供智慧与理解的“大脑”,OpenClaw是负责规划与调度的“中枢神经系统”,而OpenCode则是精准执行编程任务的“灵巧双手”。厘清这三者的
2026投海科技展青年创业者交出硬核创新成果
2026年4月23日,备受瞩目的投海Tech Show前沿科技专场活动于北京中关村国际创新中心成功举办。作为第20届中国投资年会·年度峰会的核心环节之一,本次活动在中关村科学城管委会指导下,由中关村科学城公司联合投中信息共同主办,深度聚焦人工智能与硬科技两大战略性新兴产业。现场亮相的14家前沿科技企
OpenClaw服务中断原因分析与解决方案
五周前,英伟达CEO黄仁勋在GTC开发者大会上,亲自为OpenClaw加冕,称其为“个人AI的操作系统”。彼时掌声雷动,风光无两。谁曾想,这个被誉为“人类历史上增长最快的开源项目”的光环,在短短一个多月后,便显露出了令人担忧的裂痕。 更新一次,崩一次 项目的创始人Peter Steinberger虽
2026年AAAS院士名单公布:中科大校友范汕洄与杜强当选
近日,全球最具影响力的学术荣誉之一——美国艺术与科学院(American Academy of Arts and Sciences,简称AAAS)正式公布了2026年度新当选院士名单。超过250位在科学、技术、工程、数学、人文、社会科学及艺术领域做出卓越贡献的顶尖学者与领袖获此殊荣。本届名单中,华人
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

