"人类终极难题：你敢挑战这些未解之谜吗？"

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

"人类终极难题：你敢挑战这些未解之谜吗？"

热心网友时间：2025-09-26

转载

跑分都满分则跑分无意义。从AI刚刚面世，人们就执着于用各种各样的题库来测试AI到底有多聪明，不管是ChatGPT、Gemini、Grok，还是DeepSeek、Kimi、文心一言，它们发布的同时，几

人工智能评测的困境：当所有模型都拿满分时

自从AI技术问世以来，人们就一直热衷于通过各种测试来衡量AI的智能水平。无论是ChatGPT、Gemini还是DeepSeek、Kimi，每当新模型发布时，必然伴随着一系列评测数据的公布。

时至今日，常见的测试题库已经被AI模型"攻克"得差不多了。新一代模型动辄就能"全面制霸"、"刷新纪录"，在MMLU等主流评测中，大多数模型的准确率已经轻松突破90%大关。换句话说，现有评测标准已经很难准确评估AI的真实能力水平了。

AI测试发展历程

不禁让人怀念AI发展初期的情景，那时的模型只需要表现出基本的人类特质就能通过测试（如今的图灵测试几乎无人提及）｜x @PhysInHistory

评测体系遭遇瓶颈

"人工智能能力的评估依赖于基准测试，但这些测试正在快速达到饱和，逐渐失去衡量价值..."最新研究报告指出，"在MMLU和GPQA等测试中获得高分，已不能准确反映技术进步，因为前沿模型的表现已达到甚至超越了人类水平。"

MMLU测试对比

在MMLU基准测试中，主流大模型的表现已经不相上下。这引出了一个有趣的问题：如果AI真的比人类更聪明，我们是否有能力真正理解这一点？｜bracai.eu

更严格的评测标准应运而生

为了真实评估快速进化的AI能力，并为不同模型划分层次，我们亟需制定更具挑战性的评测体系。

"人类最后的考试"就是在这样的背景下诞生的。这套评测系统由Center for AI Safety和Scale AI共同开发，题库涵盖了2500个前沿学术难题，分布于100多个专业领域。值得注意的是，这套测试不仅包含了理科内容，还纳入了大量人文学科知识。

题库主要分为以下几类：

数学：涵盖高等代数、拓扑学等深度推理题
自然科学：物理、化学、生物等学科
计算机与AI：算法、程序推理等内容
人文社科：语言学、历史学、经济学等
其他特殊领域

题库分布

数学题占比41%，人文社科题占比18%｜HLE

测试的难度设计

这套测试最突出的特点是其多模态特性。题目不仅包含文字描述，还包括图表、古文字、公式等多种形式。这意味着AI必须先正确理解题目本身，才能尝试作答。

以下是几个典型样例：

古典学：要求将墓碑上的罗马铭文翻译成特定语言
神话学：考察复杂的人物关系推断
生物学：需要精确的数字回答
计算机学科：结合图论和马尔可夫链的复合题

为了保证测试的公正性，主办方特别设置了Private测试集，用于检测模型是否存在过拟合情况。

题库的诞生过程

这套测试最初的名称更为戏剧性——"人类最后一战"，后因过于夸张而改为现名。

项目的发起人丹·亨德里克斯堪称传奇：25岁参与编写MMLU测试标准，30岁时发现其局限性，随后投身开发更严格的评测体系。

2024年9月，团队面向全球学者发起征集："为人类最后的考试贡献你最难的问题"。优秀的题目提供者可获得最高5000美元的奖励。最终收集到的难题经过双重筛选：先由AI测试作答能力，再由专家进行人工审核。

测试结果与分析

目前主流AI模型在这套测试中的表现：

OpenAI o3-mini：13%准确率
DeepSeek-R1：9.4%准确率
Grok4：26.9%准确率（目前最高）

测试难度体现在多个方面：

题目需要深度推理而非简单检索
故意设置了回答形式限制
部分题目学界尚未达成共识

争议与未来

尽管这套测试设计精良，但已经开始面临质疑：

部分题目答案可能存在错误
对生成类问题的评估能力有限
各组表现差距仍然不够明显

预测显示，到2025年底，AI模型的准确率可能突破50%。这预示着这套"最后考试"也可能很快被AI征服。届时，我们将需要开发更高层次的评测方法来继续衡量人工智能的发展。

来源:https://www.huxiu.com/article/4785162.html

上一篇：中证机器人ETF业绩亮眼：成立收益超40%且近1年表现优异

下一篇： 2026年八大AI趋势预测：AI管家将重塑职场格局

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

热门数据榜

Coachify AI教练助个人实现健身健康目标

年WordPress安全插件推荐与使用指南

Impulse AI解锁AI强大力量轻松满足营销需求

WordPress网站精选搜索引擎优化插件推荐与选择指南

儿童绘画动画工具：让孩子的涂鸦活起来

高效产品买家指南在线生成与搜索工具

WordPress图片水印插件推荐与使用指南

MyPrint AI AI生成个性化艺术品打印定制满意退款

WordPress资源分享下载插件推荐

Control-LoRA低秩参数优化模型控制技术

Coachify AI教练助个人实现健身健康目标

年WordPress安全插件推荐与使用指南

Impulse AI解锁AI强大力量轻松满足营销需求

WordPress网站精选搜索引擎优化插件推荐与选择指南

儿童绘画动画工具：让孩子的涂鸦活起来

高效产品买家指南在线生成与搜索工具

WordPress图片水印插件推荐与使用指南

MyPrint AI AI生成个性化艺术品打印定制满意退款

WordPress资源分享下载插件推荐

Control-LoRA低秩参数优化模型控制技术

Coachify AI教练助个人实现健身健康目标

年WordPress安全插件推荐与使用指南

Impulse AI解锁AI强大力量轻松满足营销需求

WordPress网站精选搜索引擎优化插件推荐与选择指南

儿童绘画动画工具：让孩子的涂鸦活起来

高效产品买家指南在线生成与搜索工具

WordPress图片水印插件推荐与使用指南

MyPrint AI AI生成个性化艺术品打印定制满意退款

WordPress资源分享下载插件推荐

Control-LoRA低秩参数优化模型控制技术

相关攻略

2026-07-13 14:42

Meta扎克伯格坦承AI智能体发展不及预期，超级智能仍需时间

2026-07-13 14:40

Agentic AI重构影像创作，影石Insta360联

2026-07-13 14:36

微软Teams加强第三方AI智能体权限管理，需会议组织者确认后放行

2026-07-13 14:19

小猿AI接入多模态AI能力，推动智能学习体验升级

2026-07-13 14:16

阶跃AI推动多模态AI发展：语音与内容生成能力持续增强

2026-07-13 13:55

AMD EXPO超低延迟DDR5内存实测：游戏帧率与性能显著提升

2026-07-13 13:55

红米Note 17 Pro手机搭载9000mAh超大电池并支持67W快充超长续航

2026-07-13 13:55

谷歌Pixel 11 Pro Fold松木色渲染图曝光

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

我的世界恐怖种子代码大全2026 发布于 2026-07-13

炉石传说预备妥当成就完成攻略发布于 2026-07-13

重返未来1999回声谣培养与玩法攻略发布于 2026-07-13

杀戮尖塔2静默猎手毒流玩法与卡牌选择攻略发布于 2026-07-13

女神异闻录3 Reload累计销量突破300万套发布于 2026-07-13

泰拉瑞亚翅膀制作方法材料与合成全攻略发布于 2026-07-13

FIFA预售世界杯决赛场地草皮每块450美元发布于 2026-07-13

明日方舟终末地向渊行版本相伴庆典前瞻发布于 2026-07-13

CentOS 7手动释放内存缓存的详细方法发布于 2026-07-13

Mac菜单栏查看当前WiFi频率的实用方法发布于 2026-07-13

CentOS 7系统默认语言修改方法发布于 2026-07-13

Linux查看具体磁盘逻辑卷管理组坏块屏蔽记录发布于 2026-07-13

如何解决谷歌浏览器在离线状态下无法运行已安装应用的问题？发布于 2026-07-13

ssd固态硬盘怎么装到台式机发布于 2026-07-13

vivov3手机三指截屏怎么开启发布于 2026-07-13

硬盘分区怎么合并到c盘不丢数据？发布于 2026-07-13

热门话题

多模态AI是什么_多模态大模型应用_图文音视频AI指南

生成式AI是什么_生成式AI应用场景_大模型内容生成指南

RAG是什么_RAG知识库搭建教程_检索增强生成实战指南

AI智能体是什么_AI Agent入门教程_智能体应用场景指南

AIGC是什么_AIGC工具与教程_AI内容生成应用指南

OpenHands使用教程_OpenHands开源智能体指南_AI软件开发实战

Windsurf Cascade使用教程_Cascade智能编程指南_AI开发工作流

OpenCode使用教程_OpenCode代码智能体指南_终端AI编程实践

Devin使用教程_Devin AI工程师解析_自动编程智能体指南