当前位置: 首页
AI教程
高考数学大模型测评哪家强 第一名结果出乎意料

高考数学大模型测评哪家强 第一名结果出乎意料

热心网友 时间:2026-05-25
转载

为了让大家对主流AI模型的数学能力有一个最直观的感受,我们组织了一场“满血版”的数学高考。目的很明确:看看在150分的满分下,这些模型究竟能拿多少分,谁又能在这场较量中拔得头筹。

由于解答题与选择题、填空题的评分方式不同,我们为此单独制定了一套规则:

1. 数学大题通常包含多个小问,各小问分值不一。我们邀请了一位高中教师朋友,对每道大题下各小问的分数进行了估算,并以此作为评分依据。

2. 高考阅卷通常会按步骤给分。但考虑到我们并非专业阅卷人,为了评测标准统一且严格,本次测试决定仅依据最终答案的正确与否来判分。

3. 每道题目,我们依然让每个大模型运行3次,根据其答对的次数比例来折算得分。

4. 所有文本题目,都先通过LaTeX编辑器转换为LaTeX格式文本,再提交给大模型作答。

5. 包含图片的多模态题目也被纳入测试,直接截图提交。对于不具备多模态能力或推理时无法接收图片的模型,其得分将取所有多模态模型在该题得分的平均值。

规则就是以上这些。

在几位朋友夜以继日地协助测试之后,我们终于得出了结果。不得不说,这又是一次干到凌晨四点的硬仗。

不过,最终的得分和结论,确实有些出人意料。

先看看各题的对错情况。我们用✅表示全对,❌表示错误,⭕️表示部分正确,不具备多模态能力的则予以标注。

说实话,这一片绿色(表示正确)的面积,有点超出预期。本以为解答题会难倒一大批模型,没想到它们大多都应对自如。反倒是单选题第6题,成了几乎所有大模型的“滑铁卢”。

这道题涉及对几何图形的理解,对于高考生来说,可能轻轻松松画条辅助线就能解决。但几乎所有多模态大模型都在此折戟,只有OpenAI的o3模型在三次尝试中答对了两次。

DeepSeek-R1-0528的表现略逊于其他推理模型,可能原因在于其推理思维链过长。高考题目并未复杂到需要如此深度的“思考”,结果反而可能导致它在过程中“想歪了”。这似乎印证了一点:有时候,想得短一点、直接一点,正确率或许会更高。

所有的原始作答记录都在这里了。我们实实在在地为每个模型、每道题都运行了3次。

下次一定得抽空写个自动化脚本,这种纯人力测试,强度确实有点顶不住。

那么,最终的成绩单终于要揭晓了。

这个排名,确实让人颇感意外。

需要特别说明的是,本次测试过程严格遵守既定规则,未有任何弄虚作假,测试结果完全基于模型的实际表现。但结果就是如此发生了。

在我们的测试中,讯飞星火和豆包除了在第6题失分外,其余题目全部答对,以145分的超高分并列第一。

通义千问Qwen3在解答题部分表现完美,全数拿下。可惜在填空题环节,因一次失误(3次尝试中2对1错),损失了宝贵的1.7分,最终以143.3分屈居第三。

Gemini 2.5 Pro在解答题部分出现了一些失误,以139.7分位列第四。

混元T1和文心X1在解答题上的失误稍多一些,比Gemini 2.5 Pro多丢了2.7分,并列第五。

这个结果,很有意思。

说实话,很久没有一次测试能让人如此兴致盎然了。回想2023年第一次测试AI做高考数学题时,场面多少有些“惨不忍睹”,强如大模型,面对基础题目也可能束手无策。

短短两年时间,它们对于高考数学题的应对能力,已经普遍达到了优秀学生的水准。AI的进化速度,确实快得有点惊人。

或许,这正是这份工作令人着迷的地方——它总能带来未知、惊喜,以及那种“一年抵十年”的深刻体验。

至此,这场AI高考可以画上一个句号了。窗外,天边已泛起鱼肚白,新的一天,已然到来。

来源:https://www.uisdc.com/ai-math-gaokao

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
公众号排版工具免费AI版提升内容吸引力技巧

公众号排版工具免费AI版提升内容吸引力技巧

如何利用AI工具提升公众号的排版效率与吸引力 在内容为王的时代,公众号的视觉呈现与阅读体验,正变得和内容本身一样重要。信息过载让读者的注意力愈发稀缺,如何让你的文章在众多推送中脱颖而出?答案或许就藏在排版里。如今,随着AI技术的成熟,一些高效、智能的工具正在改变内容创作者的工作流,让专业级的排版不再

时间:2026-05-25 11:27
AI杂志排版模板如何提升创意设计与工作效率

AI杂志排版模板如何提升创意设计与工作效率

AI杂志排版模板的崛起与创意表现的提升 在信息爆炸的时代,杂志设计如何平衡高效生产与持续创新?这是设计领域面临的核心挑战。人工智能技术的融合,为这一难题提供了突破性的解决方案。它不仅带来了工具层面的效率革命,更在深层次上重构了创意生产的工作流与可能性边界。 AI杂志排版模板的崛起 AI杂志排版模板的

时间:2026-05-25 11:27
AI小说阅读工具推荐与使用体验优化指南

AI小说阅读工具推荐与使用体验优化指南

一、如何通过AI读小说提升你的阅读体验和理解力 科技浪潮之下,人工智能早已渗透进日常生活的肌理,阅读领域也不例外。传统的阅读方式固然经典,但有时难免让人感到疲惫或效率受限。而AI技术的融入,正悄然改变着这一切,它不仅能显著提升阅读效率,更能深化我们对文本的理解,让“读小说”这件事焕发出新的活力。 A

时间:2026-05-25 11:27
AI排版设计如何重塑品牌视觉形象与营销策略

AI排版设计如何重塑品牌视觉形象与营销策略

如何利用排版设计AI提升品牌视觉效果 当你步入一家咖啡店,最先吸引你目光的,往往是那些设计精美的菜单或海报。这背后,正是排版设计的强大魅力。它远不止是文字的简单排列,更是塑造品牌独特气质、高效传递核心信息的关键艺术。如今,随着人工智能技术的深度融入,排版设计AI正成为品牌在激烈视觉竞争中脱颖而出的核

时间:2026-05-25 11:26
AI制作PPT技巧如何快速提升工作效率

AI制作PPT技巧如何快速提升工作效率

如何利用AI制作PPT 信息爆炸的时代,一份出彩的PPT往往是高效沟通的敲门砖。但创意和效率常常难以兼得,直到AI技术开始深度介入这个领域。现在,制作一份专业又吸睛的演示文稿,过程正变得前所未有的简单和快捷。下面,我们就来聊聊几种切实可行的AI辅助方法,帮你彻底告别PPT制作的焦虑。 方法一:让AI

时间:2026-05-25 11:26
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程