"人类终极难题:你敢挑战这些未解之谜吗?"
人工智能评测的困境:当所有模型都拿满分时
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
自从AI技术问世以来,人们就一直热衷于通过各种测试来衡量AI的智能水平。无论是ChatGPT、Gemini还是DeepSeek、Kimi,每当新模型发布时,必然伴随着一系列评测数据的公布。
时至今日,常见的测试题库已经被AI模型"攻克"得差不多了。新一代模型动辄就能"全面制霸"、"刷新纪录",在MMLU等主流评测中,大多数模型的准确率已经轻松突破90%大关。换句话说,现有评测标准已经很难准确评估AI的真实能力水平了。

不禁让人怀念AI发展初期的情景,那时的模型只需要表现出基本的人类特质就能通过测试(如今的图灵测试几乎无人提及)|x @PhysInHistory
评测体系遭遇瓶颈
"人工智能能力的评估依赖于基准测试,但这些测试正在快速达到饱和,逐渐失去衡量价值..."最新研究报告指出,"在MMLU和GPQA等测试中获得高分,已不能准确反映技术进步,因为前沿模型的表现已达到甚至超越了人类水平。"

在MMLU基准测试中,主流大模型的表现已经不相上下。这引出了一个有趣的问题:如果AI真的比人类更聪明,我们是否有能力真正理解这一点?|bracai.eu
更严格的评测标准应运而生
为了真实评估快速进化的AI能力,并为不同模型划分层次,我们亟需制定更具挑战性的评测体系。
"人类最后的考试"就是在这样的背景下诞生的。这套评测系统由Center for AI Safety和Scale AI共同开发,题库涵盖了2500个前沿学术难题,分布于100多个专业领域。值得注意的是,这套测试不仅包含了理科内容,还纳入了大量人文学科知识。
题库主要分为以下几类:
- 数学:涵盖高等代数、拓扑学等深度推理题
- 自然科学:物理、化学、生物等学科
- 计算机与AI:算法、程序推理等内容
- 人文社科:语言学、历史学、经济学等
- 其他特殊领域

数学题占比41%,人文社科题占比18%|HLE
测试的难度设计
这套测试最突出的特点是其多模态特性。题目不仅包含文字描述,还包括图表、古文字、公式等多种形式。这意味着AI必须先正确理解题目本身,才能尝试作答。
以下是几个典型样例:
- 古典学:要求将墓碑上的罗马铭文翻译成特定语言
- 神话学:考察复杂的人物关系推断
- 生物学:需要精确的数字回答
- 计算机学科:结合图论和马尔可夫链的复合题
为了保证测试的公正性,主办方特别设置了Private测试集,用于检测模型是否存在过拟合情况。
题库的诞生过程
这套测试最初的名称更为戏剧性——"人类最后一战",后因过于夸张而改为现名。
项目的发起人丹·亨德里克斯堪称传奇:25岁参与编写MMLU测试标准,30岁时发现其局限性,随后投身开发更严格的评测体系。
2024年9月,团队面向全球学者发起征集:"为人类最后的考试贡献你最难的问题"。优秀的题目提供者可获得最高5000美元的奖励。最终收集到的难题经过双重筛选:先由AI测试作答能力,再由专家进行人工审核。
测试结果与分析
目前主流AI模型在这套测试中的表现:
- OpenAI o3-mini:13%准确率
- DeepSeek-R1:9.4%准确率
- Grok4:26.9%准确率(目前最高)
测试难度体现在多个方面:
- 题目需要深度推理而非简单检索
- 故意设置了回答形式限制
- 部分题目学界尚未达成共识
争议与未来
尽管这套测试设计精良,但已经开始面临质疑:
- 部分题目答案可能存在错误
- 对生成类问题的评估能力有限
- 各组表现差距仍然不够明显
预测显示,到2025年底,AI模型的准确率可能突破50%。这预示着这套"最后考试"也可能很快被AI征服。届时,我们将需要开发更高层次的评测方法来继续衡量人工智能的发展。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
AI能从单份血样检出多种神经疾病
来源:科技日报科技日报讯 (记者刘霞)由瑞典隆德大学领衔的国际研究团队,研发出一款新的人工智能(AI)模型。该模型仅需一份血液样本,便能精准识别多种神经退行性疾病。团队期望,该AI模型未来能实现“一
褪去虚火,脑机接口方能释放长远价值
来源:科技日报2026年开年,马斯克宣称脑机接口产品将于年内启动量产,引爆全球市场情绪。国内资本随即扎堆追捧,脑机接口相关概念股大幅走高,行业短期炒作虚火蔓延。进入3月,脑机接口迎来多重利好:脑机接
黎万强、洪锋退出小米科技股东名单
人民财讯4月7日电,企查查APP显示,近日,小米科技有限责任公司发生工商变更,原股东小米联合创始人黎万强、洪锋退出,同时,注册资本由18 5亿元减至约14 8亿元。 企查查信息显示,该公司成立于20
新闻分析|“阿耳忒弥斯2号”任务为何只绕月不登月
新华社北京4月7日电 新闻分析|“阿耳忒弥斯2号”任务为何只绕月不登月 新华社记者张晓茹 美国东部时间6日18时40分许(北京时间7日6时40分许),执行美国“阿耳忒弥斯2号”载人绕月飞行任
“链接未来·智汇静安”区块链创新应用优秀场景分享(四)| 信医基于区块链与隐私计算的真实世界研究数据产品
聚焦数字技术,释放创新动能。为集中展示静安区区块链技术从“实验室”走向“应用场”的丰硕成果,挖掘一批可复制、可推广的行业解决方案,加速构建区块链产业生态闭环,静安区数据局特推出“静安区区块链创新应用
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

