首页
科技
"人类终极难题:你敢挑战这些未解之谜吗?"

"人类终极难题:你敢挑战这些未解之谜吗?"

热心网友
转载
2025-09-26
来源:https://www.huxiu.com/article/4785162.html

人工智能评测的困境:当所有模型都拿满分时

自从AI技术问世以来,人们就一直热衷于通过各种测试来衡量AI的智能水平。无论是ChatGPT、Gemini还是DeepSeek、Kimi,每当新模型发布时,必然伴随着一系列评测数据的公布。

时至今日,常见的测试题库已经被AI模型"攻克"得差不多了。新一代模型动辄就能"全面制霸"、"刷新纪录",在MMLU等主流评测中,大多数模型的准确率已经轻松突破90%大关。换句话说,现有评测标准已经很难准确评估AI的真实能力水平了。

AI测试发展历程

不禁让人怀念AI发展初期的情景,那时的模型只需要表现出基本的人类特质就能通过测试(如今的图灵测试几乎无人提及)|x @PhysInHistory

评测体系遭遇瓶颈

"人工智能能力的评估依赖于基准测试,但这些测试正在快速达到饱和,逐渐失去衡量价值..."最新研究报告指出,"在MMLU和GPQA等测试中获得高分,已不能准确反映技术进步,因为前沿模型的表现已达到甚至超越了人类水平。"

MMLU测试对比

在MMLU基准测试中,主流大模型的表现已经不相上下。这引出了一个有趣的问题:如果AI真的比人类更聪明,我们是否有能力真正理解这一点?|bracai.eu

更严格的评测标准应运而生

为了真实评估快速进化的AI能力,并为不同模型划分层次,我们亟需制定更具挑战性的评测体系。

"人类最后的考试"就是在这样的背景下诞生的。这套评测系统由Center for AI Safety和Scale AI共同开发,题库涵盖了2500个前沿学术难题,分布于100多个专业领域。值得注意的是,这套测试不仅包含了理科内容,还纳入了大量人文学科知识。

题库主要分为以下几类:

  • 数学:涵盖高等代数、拓扑学等深度推理题
  • 自然科学:物理、化学、生物等学科
  • 计算机与AI:算法、程序推理等内容
  • 人文社科:语言学、历史学、经济学等
  • 其他特殊领域

题库分布

数学题占比41%,人文社科题占比18%|HLE

测试的难度设计

这套测试最突出的特点是其多模态特性。题目不仅包含文字描述,还包括图表、古文字、公式等多种形式。这意味着AI必须先正确理解题目本身,才能尝试作答。

以下是几个典型样例:

  • 古典学:要求将墓碑上的罗马铭文翻译成特定语言
  • 神话学:考察复杂的人物关系推断
  • 生物学:需要精确的数字回答
  • 计算机学科:结合图论和马尔可夫链的复合题

为了保证测试的公正性,主办方特别设置了Private测试集,用于检测模型是否存在过拟合情况。

题库的诞生过程

这套测试最初的名称更为戏剧性——"人类最后一战",后因过于夸张而改为现名。

项目的发起人丹·亨德里克斯堪称传奇:25岁参与编写MMLU测试标准,30岁时发现其局限性,随后投身开发更严格的评测体系。

2024年9月,团队面向全球学者发起征集:"为人类最后的考试贡献你最难的问题"。优秀的题目提供者可获得最高5000美元的奖励。最终收集到的难题经过双重筛选:先由AI测试作答能力,再由专家进行人工审核。

测试结果与分析

目前主流AI模型在这套测试中的表现:

  • OpenAI o3-mini:13%准确率
  • DeepSeek-R1:9.4%准确率
  • Grok4:26.9%准确率(目前最高)

测试难度体现在多个方面:

  1. 题目需要深度推理而非简单检索
  2. 故意设置了回答形式限制
  3. 部分题目学界尚未达成共识

争议与未来

尽管这套测试设计精良,但已经开始面临质疑:

  • 部分题目答案可能存在错误
  • 对生成类问题的评估能力有限
  • 各组表现差距仍然不够明显

预测显示,到2025年底,AI模型的准确率可能突破50%。这预示着这套"最后考试"也可能很快被AI征服。届时,我们将需要开发更高层次的评测方法来继续衡量人工智能的发展。

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章

荣耀Magic8系列首发骁龙8至尊版,AI智能体推升高端体验

高通近日正式推出第五代骁龙8至尊版移动平台,宣称其为“全球移动CPU性能标杆”。该芯片延续2+6核心架构设计,其中两个Prime核心主频提升至4 6GHz,六个性能核心运行频率达3 62GHz。与前

2025-09-26.

国产低空载人航空器亮相数贸会,科幻科技成真

第四届全球数字贸易博览会近日在杭州拉开帷幕,这场汇聚全球数字贸易精华的盛会,吸引了154个国家和地区的1800余家企业踊跃参展。展会现场,数字贸易领域的最新成果与发展趋势交相辉映,为观众呈现了一场科

2025-09-26.

小米17系列发布:7500mAh电池+IP69防水,4499元起

在智能手机市场,小米始终是备受关注的品牌,其创始人雷军的传奇经历也为小米增添了不少话题性。过去,小米手机以高性价比著称,早期推出的机型价格亲民,但也因此让不少消费者形成了“小米只做性价比”的固有印象

2025-09-26.

图灵算力研究院携四大AI黑科技亮相数贸会

无论是健康陪伴、视频生成,还是应用开发,这些高度依赖数据处理的AI服务,都离不开底层芯片的支撑。徴格半导体发布的4通道5Gsps ADC芯片ZGAD5000Q16,正是这些创新成果的“科技底座”。作

2025-09-26.

雷军演讲揭晓小米汽车5年技术突破与服务升级

北京国家会议中心内,雷军第六次登上年度演讲台。这一次,他选择的关键词是“改变”——这个主题背后,是小米五年间从互联网公司向硬核科技企业转型的深层逻辑。五年前,当小米跨过2000亿营收门槛时,企业面临

2025-09-26.

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
棒球大师
棒球大师 体育竞技 2025-09-26更新
查看
火柴人超级突击
火柴人超级突击 休闲益智 2025-09-26更新
查看
蛮荒幻想
蛮荒幻想 角色扮演 2025-09-26更新
查看
果宝无双
果宝无双 动作冒险 2025-09-26更新
查看
台球世界九游
台球世界九游 体育竞技 2025-09-26更新
查看
黑洞大作战国际
黑洞大作战国际 休闲益智 2025-09-26更新
查看
进击要塞手游
进击要塞手游 棋牌策略 2025-09-26更新
查看
巨龙猎手
巨龙猎手 角色扮演 2025-09-26更新
查看
天天打波利游戏
天天打波利游戏 休闲益智 2025-09-26更新
查看
时空旅梦人
时空旅梦人 动作冒险 2025-09-26更新
查看