2025年了,AI还看不懂时钟,90%人都能答对,顶尖AI全军覆没

一般人准确率89.1%,AI最好只有13.3%。在新视觉基准ClockBench上,读模拟时钟这道「小学题」,把11个大模型难住了。为什么AI还是读不准表?是测试有问题还是AI真不行?
麻 将90%人都会的读钟题,顶尖AI全军覆没!
AI基准创建者、连续创业者Alek Safar推出了视觉基准测试ClockBench,专注于测试AI的「看懂」模拟时钟的能力。
结果让人吃惊:
人类平均准确率89.1%,而参与测试的11个主流大模型最好的成绩仅13.3%。
就难度而言,这与「AGI终极测试」ARC-AGI-2相当,比「人类终极考试」更难。
ClockBench共包含180个时钟、720道问题,展示了当前前沿大语言模型(LLM)的局限性。
论文链接:https://clockbench.ai/ClockBench.pdf
虽然这些模型在多项基准上展现出惊人的推理、数学与视觉理解能力,但这些能力尚未有效迁移到「读表」。可能原因:
训练数据未覆盖足够可记忆的时钟特征与时间组合,模型不得不通过推理去建立指针、刻度与读数之间的映射。
时钟的视觉结构难以完整映射到文本空间,导致基于文本的推理受限。
也有好消息:表现最好的模型已展现出一定的视觉推理(虽有限)。其读时准确率与中位误差均显著优于随机水平。
接下来需要更多研究,以判定这些能力能否通过扩大现有范式(数据、模型规模、计算/推理预算)来获得,还是必须采用全新的方法。
ClockBench如何拷打AI?
在过去的几年里,大语言模型(LLM)在多个领域都取得了显著进展,前沿模型很快在许多流行基准上达到了「饱和」。
甚至是那些专门设计来同时考察「专业知识与强推理能力」的最新基准,也出现了快速突破。
一个典型例子是Humanity’s Last Exam):
在该基准上,OpenAI GPT-4o的得分仅2.7%,而xAI Grok 4却提升到25.4%;
结合工具使用等优化手段后,结果甚至能进入40–50%区间。
然而,我们仍然发现一些对人类而言轻而易举的任务,AI表现不佳。
因此,出现了SimpleBench以及ARC-AGI这类基准,它们被专门设计为:对普通人来说很简单,但对LLM却很难。
ClockBench正是受这种「人类容易,AI困难」的思路启发而设计。
研究团队基于一个关键观察:对推理型和非推理型模型来说,读懂模拟时钟同样很难。
因此,ClockBench构建了一个需要高度视觉精度和推理能力的稳健数据集。
ClockBench究竟包含什么?
36个全新设计的定制表盘,每个表盘生成5个样本时钟 总计180个时钟,每个时钟设置4个问题,共720道测试题 测试了来自6家实验室的11个具备视觉理解能力的模型,并招募5名人类参与者对比问题分为4大类:
1. 判断时间是否有效
有一个时钟
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
最新文章
iPhone 17 Air首发确认 iPhone 16现谷底价网友抢疯天!
9月9日消息,苹果配件厂商 数码博主“Kang”最新发文确认,iPhone 17Air首发国行版本无法上市,原因还是eSIM政策问题。不过也有好消息,苹果是准备了iPhone 17 Air国行备货的
苹果发布会“盲盒”曝光 iPhone 16价比老人机改写爱疯史!
苹果即将在9月10日举行新品发布会,预计推出iPhone 17系列、Apple Watch Ultra 3、Series 11及AirPods Pro 3。除这些重磅产品外,此前的传闻还暗示了五款可
苹果史上最强拍照旗舰!前辈旗舰价格感人改写爱疯史!
9月9日消息,苹果发布会已经进入倒计时,iPhone 17系列将在北京时间9月10日凌晨一点正式登场。这次四款手机整体变化比较大,整体关注度很高,尤其是旗舰机型iPhone 17 Pro系列,影像方
新一代TWS耳机王者到来 AirPods Pro 3预测汇总
随着苹果秋季发布会的临近,关于新一代旗舰耳机AirPods Pro 3的讨论热度持续攀升,现在我们就来全面预测一下这款重磅新品。外观革新:隐形美学与交互升级AirPods Pro 3的外观设计延续了
2025年中国车企最新销量目标完成率分化,新能源转型成关键变量
2025年中国汽车市场结构性变革持续深化,乘联会最新数据显示,8月全国新能源市场零售渗透率攀升至55 3%,创月度新高且连续六个月超50%。新能源驱动格局生变,在此趋势下,头部车企1-8月最新销量及
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















