当前位置: 首页
科技数码
2025年了,AI还看不懂时钟,90%人都能答对,顶尖AI全军覆没

2025年了,AI还看不懂时钟,90%人都能答对,顶尖AI全军覆没

热心网友 时间:2025-09-09
转载

一般人准确率89.1%,AI最好只有13.3%。在新视觉基准ClockBench上,读模拟时钟这道「小学题」,把11个大模型难住了。为什么AI还是读不准表?是测试有问题还是AI真不行?

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

麻 将

90%人都会的读钟题,顶尖AI全军覆没!

AI基准创建者、连续创业者Alek Safar推出了视觉基准测试ClockBench,专注于测试AI的「看懂」模拟时钟的能力。

结果让人吃惊:

人类平均准确率89.1%,而参与测试的11个主流大模型最好的成绩仅13.3%。

就难度而言,这与「AGI终极测试」ARC-AGI-2相当,比「人类终极考试」更难。

ClockBench共包含180个时钟、720道问题,展示了当前前沿大语言模型(LLM)的局限性。

论文链接:https://clockbench.ai/ClockBench.pdf

虽然这些模型在多项基准上展现出惊人的推理、数学与视觉理解能力,但这些能力尚未有效迁移到「读表」。可能原因:

训练数据未覆盖足够可记忆的时钟特征与时间组合,模型不得不通过推理去建立指针、刻度与读数之间的映射。

时钟的视觉结构难以完整映射到文本空间,导致基于文本的推理受限。

也有好消息:表现最好的模型已展现出一定的视觉推理(虽有限)。其读时准确率与中位误差均显著优于随机水平。

接下来需要更多研究,以判定这些能力能否通过扩大现有范式(数据、模型规模、计算/推理预算)来获得,还是必须采用全新的方法。

ClockBench如何拷打AI?

在过去的几年里,大语言模型(LLM)在多个领域都取得了显著进展,前沿模型很快在许多流行基准上达到了「饱和」。

甚至是那些专门设计来同时考察「专业知识与强推理能力」的最新基准,也出现了快速突破。

一个典型例子是Humanity’s Last Exam):

在该基准上,OpenAI GPT-4o的得分仅2.7%,而xAI Grok 4却提升到25.4%;

结合工具使用等优化手段后,结果甚至能进入40–50%区间。

然而,我们仍然发现一些对人类而言轻而易举的任务,AI表现不佳。

因此,出现了SimpleBench以及ARC-AGI这类基准,它们被专门设计为:对普通人来说很简单,但对LLM却很难。

ClockBench正是受这种「人类容易,AI困难」的思路启发而设计。

研究团队基于一个关键观察:对推理型和非推理型模型来说,读懂模拟时钟同样很难。

因此,ClockBench构建了一个需要高度视觉精度和推理能力的稳健数据集。

ClockBench究竟包含什么?

36个全新设计的定制表盘,每个表盘生成5个样本时钟 总计180个时钟,每个时钟设置4个问题,共720道测试题 测试了来自6家实验室的11个具备视觉理解能力的模型,并招募5名人类参与者对比

问题分为4大类:

1. 判断时间是否有效

有一个时钟

来源:https://36kr.com/p/3458800802240135

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
小米汽车慕尼黑设欧洲研发中心 2027年携YU7 GT进军欧洲高端市场

小米汽车慕尼黑设欧洲研发中心 2027年携YU7 GT进军欧洲高端市场

中国新能源汽车品牌小米近日在德国慕尼黑正式启用其欧洲研发中心,标志着这家科技企业向全球化战略迈出关键一步。该中心将聚焦高性能车型开发、高端设计语言构建及底盘动力学核心技术攻关,为2027年进军欧洲市场奠定技术基础。 消息显示,这座占地超过2000平方米的研发中心,已经迅速组建起一支约50人的专业团队

时间:2026-04-26 22:49
三星Galaxy Tab S12系列开始固件测试了

三星Galaxy Tab S12系列开始固件测试了

三星Galaxy Tab S12系列研发加速,固件测试已悄然启动 科技界的风向总是变得很快。就在大家还在品味去年的旗舰平板时,下一代产品的研发齿轮早已悄然转动。根据科技媒体Sammobile的最新报道,三星针对下一代高端平板Galaxy Tab S12系列的研发工作,其实从今年二月就已经开始了。更值

时间:2026-04-26 21:15
滴滴出行300人专车志愿车队助力大连达沃斯

滴滴出行300人专车志愿车队助力大连达沃斯

滴滴出行签约2026大连夏季达沃斯论坛,启动最高规格出行保障 4月25日,2026大连夏季达沃斯论坛中方首轮合作企业签约仪式正式举行。在首批签约的33家企业中,滴滴出行赫然在列。说起来,滴滴也算是大连夏季达沃斯论坛保障合作的“老朋友”了。深耕大连市场十余年,平台累计助力6万名司机实现了灵活就业,每天

时间:2026-04-26 21:15
“大力出奇迹”,不是电池的正道

“大力出奇迹”,不是电池的正道

文 刘佩其 在半导体行业,衡量芯片代际差距的核心标准是制程,这几乎是个常识。 那么,在动力电池领域,什么才是那个关键的“制程”指标呢?答案是能量密度。它不仅是衡量电池能存多少电的标尺,更从根本上决定了一辆车的轻量化水平、安全边界和驾驶体验。 这就像芯片制程从7纳米向3纳米的演进,每一次突破都重塑了消

时间:2026-04-26 21:15
东方甄选“F4”出走,矛头直指新任管理层,俞敏洪力挺的新CEO,为何与老将难共存?

东方甄选“F4”出走,矛头直指新任管理层,俞敏洪力挺的新CEO,为何与老将难共存?

红星资本局4月26日消息 短短两天,东方甄选接连失去了四位核心主播。离职声明中,矛头不约而同地指向了公司现任管理层管理风格的转变,有主播直言“很难认同,选择离开”。 面对这场突如其来的主播集体离职潮,俞敏洪在4月25日的直播中作出了回应,坦承管理层调整后,公司的管理方式确实出现了偏差。 顺着时间线看

时间:2026-04-26 21:14
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程