高考数学大模型测评哪家强 第一名结果出乎意料

为了让大家对主流AI模型的数学能力有一个最直观的感受,我们组织了一场“满血版”的数学高考。目的很明确:看看在150分的满分下,这些模型究竟能拿多少分,谁又能在这场较量中拔得头筹。
由于解答题与选择题、填空题的评分方式不同,我们为此单独制定了一套规则:
1. 数学大题通常包含多个小问,各小问分值不一。我们邀请了一位高中教师朋友,对每道大题下各小问的分数进行了估算,并以此作为评分依据。

2. 高考阅卷通常会按步骤给分。但考虑到我们并非专业阅卷人,为了评测标准统一且严格,本次测试决定仅依据最终答案的正确与否来判分。
3. 每道题目,我们依然让每个大模型运行3次,根据其答对的次数比例来折算得分。
4. 所有文本题目,都先通过LaTeX编辑器转换为LaTeX格式文本,再提交给大模型作答。

5. 包含图片的多模态题目也被纳入测试,直接截图提交。对于不具备多模态能力或推理时无法接收图片的模型,其得分将取所有多模态模型在该题得分的平均值。
规则就是以上这些。
在几位朋友夜以继日地协助测试之后,我们终于得出了结果。不得不说,这又是一次干到凌晨四点的硬仗。
不过,最终的得分和结论,确实有些出人意料。
先看看各题的对错情况。我们用✅表示全对,❌表示错误,⭕️表示部分正确,不具备多模态能力的则予以标注。

说实话,这一片绿色(表示正确)的面积,有点超出预期。本以为解答题会难倒一大批模型,没想到它们大多都应对自如。反倒是单选题第6题,成了几乎所有大模型的“滑铁卢”。
这道题涉及对几何图形的理解,对于高考生来说,可能轻轻松松画条辅助线就能解决。但几乎所有多模态大模型都在此折戟,只有OpenAI的o3模型在三次尝试中答对了两次。

DeepSeek-R1-0528的表现略逊于其他推理模型,可能原因在于其推理思维链过长。高考题目并未复杂到需要如此深度的“思考”,结果反而可能导致它在过程中“想歪了”。这似乎印证了一点:有时候,想得短一点、直接一点,正确率或许会更高。
所有的原始作答记录都在这里了。我们实实在在地为每个模型、每道题都运行了3次。

下次一定得抽空写个自动化脚本,这种纯人力测试,强度确实有点顶不住。
那么,最终的成绩单终于要揭晓了。

这个排名,确实让人颇感意外。
需要特别说明的是,本次测试过程严格遵守既定规则,未有任何弄虚作假,测试结果完全基于模型的实际表现。但结果就是如此发生了。
在我们的测试中,讯飞星火和豆包除了在第6题失分外,其余题目全部答对,以145分的超高分并列第一。
通义千问Qwen3在解答题部分表现完美,全数拿下。可惜在填空题环节,因一次失误(3次尝试中2对1错),损失了宝贵的1.7分,最终以143.3分屈居第三。
Gemini 2.5 Pro在解答题部分出现了一些失误,以139.7分位列第四。
混元T1和文心X1在解答题上的失误稍多一些,比Gemini 2.5 Pro多丢了2.7分,并列第五。
这个结果,很有意思。
说实话,很久没有一次测试能让人如此兴致盎然了。回想2023年第一次测试AI做高考数学题时,场面多少有些“惨不忍睹”,强如大模型,面对基础题目也可能束手无策。
短短两年时间,它们对于高考数学题的应对能力,已经普遍达到了优秀学生的水准。AI的进化速度,确实快得有点惊人。
或许,这正是这份工作令人着迷的地方——它总能带来未知、惊喜,以及那种“一年抵十年”的深刻体验。
至此,这场AI高考可以画上一个句号了。窗外,天边已泛起鱼肚白,新的一天,已然到来。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
公众号排版工具免费AI版提升内容吸引力技巧
如何利用AI工具提升公众号的排版效率与吸引力 在内容为王的时代,公众号的视觉呈现与阅读体验,正变得和内容本身一样重要。信息过载让读者的注意力愈发稀缺,如何让你的文章在众多推送中脱颖而出?答案或许就藏在排版里。如今,随着AI技术的成熟,一些高效、智能的工具正在改变内容创作者的工作流,让专业级的排版不再
AI杂志排版模板如何提升创意设计与工作效率
AI杂志排版模板的崛起与创意表现的提升 在信息爆炸的时代,杂志设计如何平衡高效生产与持续创新?这是设计领域面临的核心挑战。人工智能技术的融合,为这一难题提供了突破性的解决方案。它不仅带来了工具层面的效率革命,更在深层次上重构了创意生产的工作流与可能性边界。 AI杂志排版模板的崛起 AI杂志排版模板的
AI小说阅读工具推荐与使用体验优化指南
一、如何通过AI读小说提升你的阅读体验和理解力 科技浪潮之下,人工智能早已渗透进日常生活的肌理,阅读领域也不例外。传统的阅读方式固然经典,但有时难免让人感到疲惫或效率受限。而AI技术的融入,正悄然改变着这一切,它不仅能显著提升阅读效率,更能深化我们对文本的理解,让“读小说”这件事焕发出新的活力。 A
AI排版设计如何重塑品牌视觉形象与营销策略
如何利用排版设计AI提升品牌视觉效果 当你步入一家咖啡店,最先吸引你目光的,往往是那些设计精美的菜单或海报。这背后,正是排版设计的强大魅力。它远不止是文字的简单排列,更是塑造品牌独特气质、高效传递核心信息的关键艺术。如今,随着人工智能技术的深度融入,排版设计AI正成为品牌在激烈视觉竞争中脱颖而出的核
AI制作PPT技巧如何快速提升工作效率
如何利用AI制作PPT 信息爆炸的时代,一份出彩的PPT往往是高效沟通的敲门砖。但创意和效率常常难以兼得,直到AI技术开始深度介入这个领域。现在,制作一份专业又吸睛的演示文稿,过程正变得前所未有的简单和快捷。下面,我们就来聊聊几种切实可行的AI辅助方法,帮你彻底告别PPT制作的焦虑。 方法一:让AI
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

