首页
科技
2025年了,AI还看不懂时钟,90%人都能答对,顶尖AI全军覆没

2025年了,AI还看不懂时钟,90%人都能答对,顶尖AI全军覆没

热心网友
转载
2025-09-09

一般人准确率89.1%,AI最好只有13.3%。在新视觉基准ClockBench上,读模拟时钟这道「小学题」,把11个大模型难住了。为什么AI还是读不准表?是测试有问题还是AI真不行?

麻 将

90%人都会的读钟题,顶尖AI全军覆没!

AI基准创建者、连续创业者Alek Safar推出了视觉基准测试ClockBench,专注于测试AI的「看懂」模拟时钟的能力。

结果让人吃惊:

人类平均准确率89.1%,而参与测试的11个主流大模型最好的成绩仅13.3%。

就难度而言,这与「AGI终极测试」ARC-AGI-2相当,比「人类终极考试」更难。

ClockBench共包含180个时钟、720道问题,展示了当前前沿大语言模型(LLM)的局限性。

论文链接:https://clockbench.ai/ClockBench.pdf

虽然这些模型在多项基准上展现出惊人的推理、数学与视觉理解能力,但这些能力尚未有效迁移到「读表」。可能原因:

训练数据未覆盖足够可记忆的时钟特征与时间组合,模型不得不通过推理去建立指针、刻度与读数之间的映射。

时钟的视觉结构难以完整映射到文本空间,导致基于文本的推理受限。

也有好消息:表现最好的模型已展现出一定的视觉推理(虽有限)。其读时准确率与中位误差均显著优于随机水平。

接下来需要更多研究,以判定这些能力能否通过扩大现有范式(数据、模型规模、计算/推理预算)来获得,还是必须采用全新的方法。

ClockBench如何拷打AI?

在过去的几年里,大语言模型(LLM)在多个领域都取得了显著进展,前沿模型很快在许多流行基准上达到了「饱和」。

甚至是那些专门设计来同时考察「专业知识与强推理能力」的最新基准,也出现了快速突破。

一个典型例子是Humanity’s Last Exam):

在该基准上,OpenAI GPT-4o的得分仅2.7%,而xAI Grok 4却提升到25.4%;

结合工具使用等优化手段后,结果甚至能进入40–50%区间。

然而,我们仍然发现一些对人类而言轻而易举的任务,AI表现不佳。

因此,出现了SimpleBench以及ARC-AGI这类基准,它们被专门设计为:对普通人来说很简单,但对LLM却很难。

ClockBench正是受这种「人类容易,AI困难」的思路启发而设计。

研究团队基于一个关键观察:对推理型和非推理型模型来说,读懂模拟时钟同样很难。

因此,ClockBench构建了一个需要高度视觉精度和推理能力的稳健数据集。

ClockBench究竟包含什么?

36个全新设计的定制表盘,每个表盘生成5个样本时钟 总计180个时钟,每个时钟设置4个问题,共720道测试题 测试了来自6家实验室的11个具备视觉理解能力的模型,并招募5名人类参与者对比

问题分为4大类:

1. 判断时间是否有效

有一个时钟

来源:https://36kr.com/p/3458800802240135

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章

第二届食材供应链峰会:观麦数字化方案引领行业生态化升级

深圳圣淘沙酒店内,一场聚焦食材供应链变革的行业盛会引发广泛关注。在“现代供应链”被写入国家战略规划的背景下,第二届食材供应链产业峰会由观麦科技联合亿欧共同主办,汇聚了产业链上下游的领军企业与创新力量

2025-10-28.

OPPO Find X9火山引擎升级AI,旅行摄影与数据安全新体验

OPPO近日正式推出Find X9系列智能手机,以移动影像技术的全面革新为核心,通过深度融合AI能力,重新定义手机摄影体验,同时强化数据安全防护机制,为用户打造兼具创作自由与隐私保护的智能终端新标杆

2025-10-28.

易控智驾与同力重工共推EQ100E,开启矿山无人运输原生时代

第二十一届中国国际煤炭采矿技术交流及设备展览会在北京盛大启幕,易控智驾与同力重工联合推出的分布式动力纯电无人驾驶矿卡EQ100E成为全场焦点。这款全球首发的智能装备,标志着矿山运输正式进入“整车原生

2025-10-28.

汽车座椅电机润滑脂选择指南:结构与需求适配方案详解

汽车座椅电机作为实现座椅电动调节的核心组件,承担着驱动水平移动、高度调节及靠背角度变化等关键功能。其运行环境复杂多变,对配套润滑脂的性能提出严苛要求。如何针对不同结构选择适配的润滑方案,成为工程师面

2025-10-28.

港服PlayStation双11提前开抢:主机游戏最低2.6折起

PlayStation香港服宣布,一年一度的双11购物节将于10月31日正式开启,部分商品折扣低至2 6折。此次活动涵盖PS5主机系列、周边配件及多款热门游戏,为广大玩家带来实质性优惠。本次促销重点

2025-10-28.

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
率土之滨无界
率土之滨无界 棋牌策略 2025-10-29更新
查看
宝宝巴士奇妙传统节日游戏
宝宝巴士奇妙传统节日游戏 休闲益智 2025-10-29更新
查看
率土之滨腾讯
率土之滨腾讯 棋牌策略 2025-10-29更新
查看
率土之滨360
率土之滨360 棋牌策略 2025-10-29更新
查看
波兰球之战二战
波兰球之战二战 棋牌策略 2025-10-29更新
查看
率土之滨应用宝
率土之滨应用宝 棋牌策略 2025-10-29更新
查看
率土之滨网易
率土之滨网易 棋牌策略 2025-10-29更新
查看
率土之滨正
率土之滨正 棋牌策略 2025-10-29更新
查看
篮球战役
篮球战役 体育竞技 2025-10-29更新
查看
率土之滨华为
率土之滨华为 棋牌策略 2025-10-29更新
查看