首页
科技
2025年了,AI还看不懂时钟,90%人都能答对,顶尖AI全军覆没

2025年了,AI还看不懂时钟,90%人都能答对,顶尖AI全军覆没

热心网友
85
转载
2025-09-09
来源:https://36kr.com/p/3458800802240135

一般人准确率89.1%,AI最好只有13.3%。在新视觉基准ClockBench上,读模拟时钟这道「小学题」,把11个大模型难住了。为什么AI还是读不准表?是测试有问题还是AI真不行?

麻 将

90%人都会的读钟题,顶尖AI全军覆没!

AI基准创建者、连续创业者Alek Safar推出了视觉基准测试ClockBench,专注于测试AI的「看懂」模拟时钟的能力。

结果让人吃惊:

人类平均准确率89.1%,而参与测试的11个主流大模型最好的成绩仅13.3%。

就难度而言,这与「AGI终极测试」ARC-AGI-2相当,比「人类终极考试」更难。

ClockBench共包含180个时钟、720道问题,展示了当前前沿大语言模型(LLM)的局限性。

论文链接:https://clockbench.ai/ClockBench.pdf

虽然这些模型在多项基准上展现出惊人的推理、数学与视觉理解能力,但这些能力尚未有效迁移到「读表」。可能原因:

训练数据未覆盖足够可记忆的时钟特征与时间组合,模型不得不通过推理去建立指针、刻度与读数之间的映射。

时钟的视觉结构难以完整映射到文本空间,导致基于文本的推理受限。

也有好消息:表现最好的模型已展现出一定的视觉推理(虽有限)。其读时准确率与中位误差均显著优于随机水平。

接下来需要更多研究,以判定这些能力能否通过扩大现有范式(数据、模型规模、计算/推理预算)来获得,还是必须采用全新的方法。

ClockBench如何拷打AI?

在过去的几年里,大语言模型(LLM)在多个领域都取得了显著进展,前沿模型很快在许多流行基准上达到了「饱和」。

甚至是那些专门设计来同时考察「专业知识与强推理能力」的最新基准,也出现了快速突破。

一个典型例子是Humanity’s Last Exam):

在该基准上,OpenAI GPT-4o的得分仅2.7%,而xAI Grok 4却提升到25.4%;

结合工具使用等优化手段后,结果甚至能进入40–50%区间。

然而,我们仍然发现一些对人类而言轻而易举的任务,AI表现不佳。

因此,出现了SimpleBench以及ARC-AGI这类基准,它们被专门设计为:对普通人来说很简单,但对LLM却很难。

ClockBench正是受这种「人类容易,AI困难」的思路启发而设计。

研究团队基于一个关键观察:对推理型和非推理型模型来说,读懂模拟时钟同样很难。

因此,ClockBench构建了一个需要高度视觉精度和推理能力的稳健数据集。

ClockBench究竟包含什么?

36个全新设计的定制表盘,每个表盘生成5个样本时钟 总计180个时钟,每个时钟设置4个问题,共720道测试题 测试了来自6家实验室的11个具备视觉理解能力的模型,并招募5名人类参与者对比

问题分为4大类:

1. 判断时间是否有效

有一个时钟

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新文章

iPhone 17 Air首发确认 iPhone 16现谷底价网友抢疯天!

9月9日消息,苹果配件厂商 数码博主“Kang”最新发文确认,iPhone 17Air首发国行版本无法上市,原因还是eSIM政策问题。不过也有好消息,苹果是准备了iPhone 17 Air国行备货的

2025-09-09.
4044

苹果发布会“盲盒”曝光 iPhone 16价比老人机改写爱疯史!

苹果即将在9月10日举行新品发布会,预计推出iPhone 17系列、Apple Watch Ultra 3、Series 11及AirPods Pro 3。除这些重磅产品外,此前的传闻还暗示了五款可

2025-09-09.
4613

苹果史上最强拍照旗舰!前辈旗舰价格感人改写爱疯史!

9月9日消息,苹果发布会已经进入倒计时,iPhone 17系列将在北京时间9月10日凌晨一点正式登场。这次四款手机整体变化比较大,整体关注度很高,尤其是旗舰机型iPhone 17 Pro系列,影像方

2025-09-09.
5345

新一代TWS耳机王者到来 AirPods Pro 3预测汇总

随着苹果秋季发布会的临近,关于新一代旗舰耳机AirPods Pro 3的讨论热度持续攀升,现在我们就来全面预测一下这款重磅新品。外观革新:隐形美学与交互升级AirPods Pro 3的外观设计延续了

2025-09-09.
8265

2025年中国车企最新销量目标完成率分化,新能源转型成关键变量

2025年中国汽车市场结构性变革持续深化,乘联会最新数据显示,8月全国新能源市场零售渗透率攀升至55 3%,创月度新高且连续六个月超50%。新能源驱动格局生变,在此趋势下,头部车企1-8月最新销量及

2025-09-09.
1048

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
疯狂的
疯狂的 休闲益智 2025-09-09更新
查看
迷图游戏
迷图游戏 休闲益智 2025-09-09更新
查看
又一个案子解决了
又一个案子解决了 动作冒险 2025-09-09更新
查看
疯狂道路机械师
疯狂道路机械师 休闲益智 2025-09-09更新
查看
外卖是一定要送到的2
外卖是一定要送到的2 休闲益智 2025-09-09更新
查看
三月之庭
三月之庭 休闲益智 2025-09-09更新
查看
我爱拼模型
我爱拼模型 休闲益智 2025-09-09更新
查看
忍者突袭手游
忍者突袭手游 休闲益智 2025-09-09更新
查看
像素地牢2
像素地牢2 动作冒险 2025-09-09更新
查看
翻转吧剧情
翻转吧剧情 休闲益智 2025-09-09更新
查看