o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜
新智元报道
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
编辑:编辑部 JHYZ
【新智元导读】刚刚发布的AIME 2025 I数学竞赛大模型参赛结果显示,o3-mini以78%的成绩拔得头筹,DeepSeek R1则以65%的成绩位列第四。然而,一位教授却发现了惊人的事实:一些仅1.5B参数的小模型居然也能达到50%的成绩。这是否意味着数据集存在污染?大语言模型究竟是真正学会了解决数学问题,还是仅仅记住了答案?
关于LLM的「Generalize VS Memorize」之争,近日有了新的进展。
苏黎世联邦理工学院的研究员Mislav Balunović在X上公布了一系列顶级AI推理模型在AIME 2025 I比赛中的表现。
其中,o3-mini (high)以极低的成本解决了78%的问题,令人印象深刻。
DeepSeek-R1解决了65%的问题,其蒸馏变体也表现出色,确立了其在开源模型中的领先地位。
图中,绿色代表解答率超过75%,黄色代表解答率在25%-75%之间,红色代表解答率低于25%。
然而,这些结果是否真的可信?
AI能够解决奥数题,是因为题目已经在网上泄露了吗?
威斯康星大学麦迪逊分校的教授,现任微软研究员的Dimitris Papailiopoulos对此结果提出了质疑。
教授对AI模型在数学题上的表现感到惊讶。
他原本认为,小型蒸馏模型在面对这些题目时应该表现不佳,没想到它们却取得了25%到50%的分数。
这真是出乎意料!
要知道,如果这些题目是全新的,模型在训练过程中从未见过,那么小模型能拿到0分以上的分数就已经很不错了。
一个1.5B参数的模型连三位数的乘法都做不好,却能解决奥数题,这合理吗?
这不禁让人怀疑其中是否有问题。
AIME I指的是2025年首场美国邀请数学考试,学生需要在三个小时内挑战15道难题。
猜猜发生了什么?
教授使用OpenAI Deep Research进行搜索后发现,AIME 2025的第1题在Quora上已经有了「原题」!
而且这并非巧合,教授再次使用Deep Research查找了第3题,结果在math.stackexchange上找到了一个非常相似的问题:
仍然感到怀疑的教授,使用DeepResearch继续查找了第7题。
结果发现,一个完全相同的问题出现在2023年佛罗里达在线数学公开赛的第9题中。
接下来,教授放弃了,因为p值已经低得不能再低。
他提出了疑问:这对数学基准意味着什么?对RL的快速发展又意味着什么?
教授表示自己并不确定,但他也不排除GRPO(一种强化学习优化策略)在增强模型记忆的同时,也提高了其数学技能的可能性。
至少,这件事表明了一点:数据净化非常困难。
永远不要低估你在互联网上能找到的东西。几乎所有东西都能在网上找到。
网友们也表示,虽然数学奥赛每年都会出新题,但根本无法100%保证之前没有同样的问题出现过。

还有好奇的网友也进行了搜索。
其中,第6题似乎有原题,第8题和第10题都有略微相似的题型。
这不禁让人想起OpenAI秘密资助某数据集的旧闻:如果没有特殊目的,为什么不告诉出题的数学家呢?
难道真如网友Noorie所言「数据去污才是新的Scaling Law」?
什么是MathArena?
MathArena是一个用于评估大模型在最新数学竞赛和奥林匹克竞赛中的表现的平台。
它的核心使命是,对LLM在「未见过的数学问题」上的推理能力和泛化能力进行严格评估。
为了确保评估的公平性和数据的纯净性,研究人员仅在模型发布后进行竞赛测试,避免使用可能泄漏的或预先训练的材料进行回溯评估。
通过标准化评估,MathArena能够确保模型的得分可以实际比较,而不会受到模型提供方特定评估设置的影响。
与此同时,研究人员会为每个竞赛发布一个排行榜,显示不同模型在各个单独问题上的得分。
此外,他们还将公开一个主表格,展示各个模型在所有竞赛中的整体表现。
为公平评估模型的表现,针对每个问题,每个模型均会进行4次重复评估,最后计算出平均得分以及模型运行成本(以美元计)。
参考资料:
https://www.php.cn/link/ef368049651bc5781718a8d879d9cd24
https://www.php.cn/link/4739d8dbd05dddb73604f6240b83ea68
https://www.php.cn/link/db03d49be7f821909335a60ea7fb7c59
https://www.php.cn/link/ca708d0d44450d9cb93c897bf6515cd3
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
觅知网专业版官方搜索入口在哪-觅知网专业版官方搜索入口怎么找
在当今数字化的时代,无论是设计达人、自媒体创作者还是各类创意工作者,都在不断寻觅着能够助力他们灵感迸发、高效产出作品的优质素材资源。而觅知网专业版官方搜索入口,无疑就是那把开启宝藏素材库的神奇钥匙。 说到素材库,觅知网专业版确实称得上是一个“百宝箱”。它汇聚了海量且丰富多样的创意素材,从精美的图片到
谷歌邮箱如何快速登录-谷歌邮箱快速登录入口在哪
谷歌邮箱登录快速入口:高效数字生活的核心枢纽 在数字时代,电子邮件早已超越了简单的通讯工具范畴,它更像是我们工作、协作与信息管理的中央枢纽。而在众多选择中,谷歌邮箱(Gmail)以其强大的功能生态和流畅的体验,赢得了全球用户的信赖。其中,谷歌邮箱的登录快速入口,堪称是开启这一高效体验的第一把钥匙。
生活小妙招手抄报怎么做
生活小妙招手抄报:一扇通往智慧生活的奇妙之门 生活小妙招手抄报,远不止是纸张与图画的简单组合。它以图文并茂的形式,将那些能让日常变得轻松、有趣且高效的小窍门一一呈现,堪称一本触手可及的生活智慧图鉴。 一、生活小妙招手抄报的魅力 这份手抄报的魅力何在?它就像一本随时可翻阅的生活秘籍,内容覆盖了日常的方
使命闹钟app如何设置数学题闹铃
让起床变得有趣:如何在使命闹钟App中设置数学题闹铃 每天早晨,被千篇一律的铃声叫醒,是不是有点乏味?如果能用一道有趣的数学题来激活大脑,或许能让起床这件事变得更有挑战性和乐趣。使命闹钟App就提供了这样的可能,让你告别单调,在解题中清醒。 第一步:获取并打开应用 首先,你需要在手机的应用商店里搜索
闲鱼如何开店
在闲鱼开店,轻松处理闲置,甚至开启一份小事业 想在闲鱼上处理闲置物品,或者尝试经营一份小副业?其实流程比想象中更简单。下面这份详细的步骤指南,能帮你快速上手。 第一步:下载注册,开启第一步 首先,你需要在手机上下载并打开闲鱼App。如果你还没有账号,注册起来非常方便:既可以直接用淘宝账号登录,也能通
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

