数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI

陶哲轩推荐：11位顶尖数学家的未竟之作与关键突破

陶哲轩推荐：11位顶尖数学家的未竟之作与关键突破

热心网友时间：2026-02-10

转载

获陶哲轩转发，arXiv上的一篇新论文正在引起巨大关注！

挤进前排后发现，原来这是一项由11位全球顶尖数学家发起的AI实验——

让AI在规定期限内，解决他们各自在真实研究过程中产生的10道“研究级”难题，以此探索“AI+数学”的能力边界。

而且走的还是高斯时代的路子——人类先证明出来，但先不公布答案和过程，等到了合适时间再公开，避免AI偷偷看答案。

以前这是一项为保护数学家证明自己优先解决某道问题的做法，而在AI时代却有了新玩法。

在陶哲轩看来，这项实验非常有意思：

当前“一次性”AI提示似乎难以解决这些问题，但它们已被人类领域专家攻克。可以预见，配备AI工具的其他领域专家也能解决其中相当一部分。这些问题的技术门槛相当高，非领域专家难以验证AI生成的任何输出结果因此在我看来，要让非专家解决其中任何一个问题都极具挑战性——当然，意外惊喜也并非不可能。在截止期限前，这项实验能否产生任何显著成果，将十分值得关注。

好好好，既然老陶如此安利了，咱这就开扒完整实验过程（doge）。

解完10道数学题，然后…藏起证明过程

概括而言，通过提出一套名为First Proof的实验方案，这群数学家想做一件事——

检验当前AI系统，是否具备独立解决研究级数学问题的能力。

在这之前，虽然很多商用AI成了数学家手中的实用工具（如用于文献检索、代码编写、手稿校验等），但对于AI是否具备他们想验证的能力，学界始终缺乏相关清晰结论。

这背后一个很重要的原因，就是评测手段的缺失。

放眼市面上的数学AI基准，目前绝大多数都聚焦于竞赛题，此类题目虽然便于规模化测试，却与真实的数学研究存在本质差异（甚至可能存在数据污染问题）。

而数学家面对的真实情况往往是——

问题并非精确定义完成，解法也不存在明确模板，需要在大量试探、修正和结构性判断中逐步推进。

基于这样的背景，这群来自斯坦福、哥伦比亚、哈佛等高校及科研机构的数学家们齐聚一堂，设计了10道研究级数学问题，覆盖代数组合学、谱图论、代数拓扑、随机分析、辛几何等多个数学分支。

这里补充一下，一开始其实是20道题，不过按4个标准筛选后最终只留下了10道——AI能理解问题表述、无隐藏公开答案、作者同意按要求发布证明、每位团队成员仅贡献1道题。

完整10道题目指路论文以下位置：

论文表示，First Proof区别于现有基准的地方在于：

问题来自数学家当前研究中发现的真实疑问，答案为证明过程，需人类专家评分；问题全公开但答案无任何公开记录，供社区验证但不可重复使用，同时彻底消除数据污染；允许AI无限制使用网络搜索等外部资源，贴近真实研究场景。

划重点，这10道题均来自作者自身的研究过程，是未来发表成果中的小型核心引理，未在互联网、会议等任何公共渠道发布，从根源避免数据污染。

每道题的人类证明不超过5页（适配当前AI的技术限制），且加密发表于下面的这个。

最终答案将于2026年2月13日公开，在此之前全球用户均可以用这10道题来测试他们想要考验的AI。

GPT和Gemini先来挑战一波

而在广发全球英雄帖之后，这群数学家也先自己测试了一波：

邀请GPT 5.2 Pro和Gemini 3 Deepthink，对10道题进行一次性作答测试。

他们明确表示，First Proof仅聚焦数学研究最后、也是最明确的阶段——

在问题表述和研究背景已经清晰给定的前提下，检验AI是否能够完成严谨的数学证明，而不评估AI提出研究问题、构建新理论框架或发明新定义的能力。

换言之，这是一场单纯的能力边界测试。在假设所有前期研究工作已经完成的情况下，看看AI能否独立走完“从命题到正确证明”的最后一公里。

而实验结果显示：

在当前公开可用的最佳AI系统，仅有一次作答机会的情况下，它们难以解答我们提出的多数问题

不过作者也预计，如果允许人类与AI反复对话、追问、引导，就很有可能让AI给出更好的答案。

再划重点，为了最大程度减少这一实验可能造成的数据污染问题，他们还有这样的举措：

我们关闭了用于训练和改进模型的数据共享选项，但我们知晓谷歌仍会保留数据3天，而OpenAI会保留30天。（即便如此）在整个过程中，我们始终尽力确保所提问题的答案保持私密。

未来，这群数学家也计划在数月内设计第二套问题集，并在实验设计上进一步收紧变量——

在与相关模型方达成明确协议的前提下，先让前沿AI系统完成测试，再统一公开问题与答案，从而将First Proof逐步发展为一个可复用、可比较的研究级数学能力基准。

在此基础上，实验设置也将逐步“去人工化”。例如，放宽当前对证明长度、表达形式等人为限制，引入来自不同数学分支的问题，使测试不再局限于某一类技术路径，而是覆盖更广泛的研究场景。

更进一步，作者也明确表示，长期目标并不只是评估AI在“解题”阶段的表现，而是逐步探索更高阶能力的评测方式，比如这次先忽略的提出新问题、构建新理论框架的能力。

不得不说，以上种种也符合陶哲轩一直以来对AI的判断——

未来的趋势不是AI代替数学家，而是讲求人机协作。

而First Proof的价值，也不在于给AI下一个“及格或不及格”的结论，而在于第一次用真实、未公开、研究级的问题，来试图界定AI当前所能触及的边界。

换言之，即使只完整解出一道题，也足以成为AI数学研究史上一个值得记录的节点。

就是这时间会不会有点太短了？（截止到2月13日）

论文：
https://arxiv.org/abs/2602.05192
答案加密地址：
https://1stproof.org/

来源:https://www.163.com/dy/article/KL8DR6A60511DSSR.html

上一篇： AI加速电池研发：50次循环预测寿命，效率提升新突破

下一篇： Lovart充值四千元年费仅用10天被封号？解读AI平台退款争议

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章

VSCode集成OpenClaw插件右键菜单缺失解决方法

VSCode集成OpenClaw插件右键菜单缺失解决方法

在VSCode里折腾了半天，右键菜单死活找不到OpenClaw的选项？别急，这问题十有八九出在插件、服务或者配置上。跟着下面这套排查流程走一遍，保证能让它“现身”。一、先确认：你装的是正确插件（最常见坑）首先得搞清楚，OpenClaw在VSCode的插件市场里不止一个。但只有特定版本才提供我们需

时间：2026-05-18 17:16

OpenAI开放AI模型代码与Claw工具详解

OpenAI开放AI模型代码与Claw工具详解

在AI应用开发的版图中，AI大模型、OpenClaw与OpenCode共同构成了一个从“思考”到“行动”的完整技术栈。我们可以将其形象地理解为：AI大模型是提供智慧与理解的“大脑”，OpenClaw是负责规划与调度的“中枢神经系统”，而OpenCode则是精准执行编程任务的“灵巧双手”。厘清这三者的

时间：2026-05-18 17:16

2026投海科技展青年创业者交出硬核创新成果

2026投海科技展青年创业者交出硬核创新成果

2026年4月23日，备受瞩目的投海Tech Show前沿科技专场活动于北京中关村国际创新中心成功举办。作为第20届中国投资年会·年度峰会的核心环节之一，本次活动在中关村科学城管委会指导下，由中关村科学城公司联合投中信息共同主办，深度聚焦人工智能与硬科技两大战略性新兴产业。现场亮相的14家前沿科技企

时间：2026-05-18 17:14

OpenClaw服务中断原因分析与解决方案

OpenClaw服务中断原因分析与解决方案

五周前，英伟达CEO黄仁勋在GTC开发者大会上，亲自为OpenClaw加冕，称其为“个人AI的操作系统”。彼时掌声雷动，风光无两。谁曾想，这个被誉为“人类历史上增长最快的开源项目”的光环，在短短一个多月后，便显露出了令人担忧的裂痕。更新一次，崩一次项目的创始人Peter Steinberger虽

时间：2026-05-18 17:12

2026年AAAS院士名单公布：中科大校友范汕洄与杜强当选

2026年AAAS院士名单公布：中科大校友范汕洄与杜强当选

近日，全球最具影响力的学术荣誉之一——美国艺术与科学院（American Academy of Arts and Sciences，简称AAAS）正式公布了2026年度新当选院士名单。超过250位在科学、技术、工程、数学、人文、社会科学及艺术领域做出卓越贡献的顶尖学者与领袖获此殊荣。本届名单中，华人

时间：2026-05-18 17:12

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

日榜
周榜
月榜

永劫无间账号购买平台推荐与安全交易指南

梦幻魔法公主善恶值系统解析与调整方法指南

茶叶蛋的冒险第14关荡秋千怎么过图文通关攻略详解

无畏契约源能行动一局游戏需要多长时间

茶叶蛋大冒险第16关怎么过相对运动图文通关攻略

蓝色星原旅谣角色强度榜与技能实战解析

蔚蓝星球零氪微氪新手攻略 20条技巧助你开局避坑

茶叶蛋大冒险第18关通关攻略图文详解隐藏关卡怎么过

文字三国志游戏评测与新手玩法指南

茶叶蛋神秘之旅第28关怎么过遵守规则通关图文攻略

NS版饿殍明末千里行今日发售全流程攻略与剧情解析

洛克王国倒影暗域地图位置与进入方法详解

洛克王国奇丽花性格选择攻略与对战搭配指南

洛克王国铁居小堡技能组合与实战搭配攻略

洛克王国水晶地穴位置与进入方法详解

洛克王国月光桃源进入条件与VIP权限详解

DNF千海天版本光枪毕业装备搭配指南

DNF千海天版本驱魔师最强毕业装备搭配指南

植物大战僵尸网页版2026最新官方入口地址与登录指南

DNF千海天混沌魔灵毕业装备搭配攻略

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

极狐S3预告发布：三电可选、宽体运动设计，2026北京车展亮相

相关攻略

相关攻略

《炎龙骑士团2》详细全攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

《东吴霸王传2013》详细全关攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

《臭作》之100%全完整攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

《兰斯8》剧情攻略详细篇

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

《英雄坛说》详细全攻略

2015-03-10 12:39

《英雄坛说》详细全攻略

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

偷窃少女的教育方法全攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

无法抵挡小恶魔的诱惑攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

龙岛异兽起源暴击机制详解与触发条件解析

龙岛异兽起源暴击机制详解与触发条件解析发布于 2026-05-18

EA SPORTS FC 26 球场传奇奖杯解锁攻略

EA SPORTS FC 26 球场传奇奖杯解锁攻略发布于 2026-05-18

九牧之野S3赛季兵种宝物攻略：哪些武将适配收益最高

九牧之野S3赛季兵种宝物攻略：哪些武将适配收益最高发布于 2026-05-18

洛克王国精灵果实获取方法全攻略

洛克王国精灵果实获取方法全攻略发布于 2026-05-18

妖错图游戏体验评测与玩法解析

妖错图游戏体验评测与玩法解析发布于 2026-05-18

炉石传说鸡哥没了怎么玩五套强力阵容推荐

炉石传说鸡哥没了怎么玩五套强力阵容推荐发布于 2026-05-18

咸鱼之王宠物属性大全与培养攻略

咸鱼之王宠物属性大全与培养攻略发布于 2026-05-18

弗沙尼亚星球探索指南异星探险家新手攻略

弗沙尼亚星球探索指南异星探险家新手攻略发布于 2026-05-18

驱魔与迷途修女修改器下载风灵月影最新版使用教程

驱魔与迷途修女修改器下载风灵月影最新版使用教程发布于 2026-05-18

燕云十六声琳琅雪坐骑获取方法全攻略

燕云十六声琳琅雪坐骑获取方法全攻略发布于 2026-05-18

王者荣耀世界皮肤继承攻略如何将皮肤带到新版本

王者荣耀世界皮肤继承攻略如何将皮肤带到新版本发布于 2026-05-18

三角洲行动阿萨拉风情调整步骤与技巧详解

三角洲行动阿萨拉风情调整步骤与技巧详解发布于 2026-05-18

王者荣耀世界凝武获取方法详解教你如何快速获得凝武

王者荣耀世界凝武获取方法详解教你如何快速获得凝武发布于 2026-05-18

洛克王国游蛇魔使图鉴技能属性全解析

洛克王国游蛇魔使图鉴技能属性全解析发布于 2026-05-18

大店小二商会经验榜排名提升方法与技巧

大店小二商会经验榜排名提升方法与技巧发布于 2026-05-18

太古仙尊合体丹怎么获得获取途径与炼制方法详解

太古仙尊合体丹怎么获得获取途径与炼制方法详解发布于 2026-05-18

Win11语音搜索本地文件开启教程说话快速查找文档

Win11语音搜索本地文件开启教程说话快速查找文档发布于 2026-05-18

Windows 11 虚拟化技术开启指南轻松运行虚拟机

Windows 11 虚拟化技术开启指南轻松运行虚拟机发布于 2026-05-18

Mac误删文件恢复指南苹果电脑数据找回方法详解

Mac误删文件恢复指南苹果电脑数据找回方法详解发布于 2026-05-18

Mac清理大文件教程：快速查找与释放磁盘空间

Mac清理大文件教程：快速查找与释放磁盘空间发布于 2026-05-18

Linux查看磁盘扇区大小命令详解与blockdev使用指南

Linux查看磁盘扇区大小命令详解与blockdev使用指南发布于 2026-05-18

Linux统计指定后缀文件行数脚本实例详解

Linux统计指定后缀文件行数脚本实例详解发布于 2026-05-18

Mac清理Sketch历史版本释放磁盘空间详细教程

Mac清理Sketch历史版本释放磁盘空间详细教程发布于 2026-05-18

统信UOS关闭开机磁盘自检与跳过扫描方法

统信UOS关闭开机磁盘自检与跳过扫描方法发布于 2026-05-18

国产内存新架构突破30TB带宽实现自主供应链

国产内存新架构突破30TB带宽实现自主供应链发布于 2026-05-11

Edge浏览器网页捕获功能使用教程截取全屏与区域截图详解

Edge浏览器网页捕获功能使用教程截取全屏与区域截图详解发布于 2026-05-11

千度手机版官网免费入口手机端专用访问链接

千度手机版官网免费入口手机端专用访问链接发布于 2026-05-11

ES文件浏览器复制文件内容到剪贴板详细步骤教程

ES文件浏览器复制文件内容到剪贴板详细步骤教程发布于 2026-05-11

如何设置鼠标连点器的固定点击间隔秒数

如何设置鼠标连点器的固定点击间隔秒数发布于 2026-05-11

苹果iPhone 15截屏保存到相册的详细步骤教程

苹果iPhone 15截屏保存到相册的详细步骤教程发布于 2026-05-11

立升净水器滤芯更换方法与使用指南

立升净水器滤芯更换方法与使用指南发布于 2026-05-11

ES文件浏览器如何设置默认打开应用详细图文教程

ES文件浏览器如何设置默认打开应用详细图文教程发布于 2026-05-11

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集