当前位置: 首页
AI
人类专家能力超越AI:新基准测试揭示大模型性能短板

人类专家能力超越AI:新基准测试揭示大模型性能短板

热心网友 时间:2026-05-18
转载

相信不少朋友都有过这样的体验:用多模态大模型看视频,乍一看它好像什么都懂,能说会道。可一旦深究细节,或者让它分析一段稍长的剧情,回答就开始变得似是而非、答非所问。这不禁让人疑惑:那些在各大视频理解榜单上名列前茅的模型,真实能力到底如何?

最近,Video-MME团队推出的新一代评估体系,或许给出了一个残酷而清晰的答案。这套体系通过一种严苛的分组连贯性测试,彻底堵死了模型靠“碎片化识别”和“瞎蒙猜题”来刷高分的捷径,精准地勾勒出了当前多模态模型的真实智力边界。

\

要知道,Video-MME基准在2024年一经推出,就因其对跨时长视频理解能力的系统性考察,迅速成为包括Gemini和GPT在内的众多顶级模型的“试金石”。经过近一年的迭代,这个全新的v2版本,可以说是把“考场纪律”提升到了前所未有的严格程度。

撕掉榜单遮羞布

过去的视频理解评测,问题往往出在“考题”本身。很多基准测试只聚焦于特定、零散的任务,很难系统性地评估模型真正的理解深度。这就导致了一个尴尬的局面:面对一段几十分钟的视频,模型可能只是侥幸认出了某几帧里的关键物体,就能在单项选择题里蒙对答案,给使用者营造出一种“全知全能”的假象。

要测出真本事,就得回归本质,重新拆解“理解视频”这件事到底需要哪些能力。新的基准将测试维度清晰地划分为三个循序渐进的层级,就像一场从易到难的晋级考试。

图片

图片

最基础的一层,是“多点信息聚合”,考验的是模型最基本的“找信息”能力。系统会考察它对视频帧、音频、字幕等分散线索的检索与提取功夫扎不扎实。

往上走一层,就进入了“时序信息理解”的领域。视频不同于静态图片的核心就在于其动态性,模型需要能准确解析画面中的状态变化、动作序列以及事件之间的逻辑关联。

而最高的一层,直接指向“时序复杂推理”。模型不仅需要感知和理解多模态的时序信息,还得结合现实世界知识和社会常识,进行多步骤的推理,以应对真实场景中的复杂挑战。

通过这三层架构,系统能把每一道考题都分门别类,精准地定位到模型的能力短板究竟在哪里。

拒绝瞎蒙与背题

有了好的考题,怎么“判卷”更是直接决定了评测的含金量。传统的评测范式下,每道题独立计分,互不影响,模型靠运气蒙对几题的概率不小。新基准彻底碘伏了这种做法,引入了“分组式评估”机制。

具体来说,系统会把问题按照能力一致性与推理连贯性,组织成多个包含4道小题的“任务组”。

在“能力一致性”任务组里,考核的是模型对单一能力的真实掌握度。系统会围绕同一个核心知识点,从局部到全局进行连环发问。比如,要测试视频计数能力,题目会依次询问:单帧里有多少运动员?单个片段里有几种动作?跨片段中同一个动作执行了多少次?最后再问:整个视频总共有几个片段?

计分规则非常有意思:系统统计模型答对的小题数量N,最终得分是 (N/4)²。这意味着,靠运气蒙对一两题只能拿到极低的分数,只有全部答对才能拿到满分。这种非线性增益的计分规则,极其直白地奖励了稳定且一致的“真本事”,让“半吊子”无所遁形。

而“推理连贯性”任务组,则更像是一场逻辑严密的审讯。系统不再只看最终答案的对错,而是在整个推理链条的关键节点上设置递进式考点。例如,针对一段“剧中人物假死”的情节,系统会按顺序提问:能否识别出表明“死亡”的表象线索?有没有捕捉到其中反常的细节?据此推断人物假死的目的是什么?最后才让模型给出终局结论。

这个组别的计分规则更为残酷,引入了“首错截断”机制。只要模型在推导过程中的任意一个节点出错,后续就算侥幸猜对了最终答案,也不再计分。这样一来,逻辑断裂导致的“伪正确”被彻底清理出局。

在如此严苛的审视下,各路前沿大模型的真实水平暴露无遗。

模型性能排名:

图片

即便是强如Gemini-3-Pro,距离人类专家90.7分的碾压级表现,依然有很长的路要走。

魔鬼藏在细节里

为了保证考题的纯净,不被大模型自身的先验知识“污染”,构建这个包含800个视频的数据集,耗费了惊人的3300个人工时。

数据源头经过了极致精细的筛选。超过80%的视频发布于2025年及以后,其中近40%更是发布于2025年10月之后。团队人工剔除了所有经典影视作品和头部博主的热门内容,彻底掐断了模型依靠“记忆效应”或“网上剧透”来作弊的途径。

视频素材覆盖了体育竞技、生活娱乐、艺术文艺、知识教育四大类,衍生出31个二级类别,平均长度约10.4分钟,其中53%在10分钟以内,保证了测试的广度和深度。

不仅内容要新,质量门槛也极高。84.3%的视频观看量超过1万次,均值高达483万次,从源头就过滤掉了低劣的噪声数据。

12名人类专家负责全流程标注,不仅要设计问题,还要为每道题精心打磨8个选项。每个问题除了常规干扰项,还会专门针对正确答案,量身定制极具迷惑性的“陷阱”选项,逼迫模型展现出细粒度的辨析能力,而非笼统的猜测。

问题设计完成后,50名独立专家入场,开启车轮战式的交叉盲测。质检团队会使用Gemini-3-Pro在纯文本模式下做题,只要发现某道题“不看视频,光靠读题和选项就能猜出答案”,就会立刻将其打回重造。历经多轮交叉复核、盲测与修正,最终确立了难度梯度极其统一的考题,问题与选项的长度在四道连环题中呈现完美的递增规律。

真实的智力边界

新规则一出,高分泡沫应声破裂。数据显示,Gemini-3-Pro和Gemini-3-Flash在传统的“逐题平均准确率”下,分别能拿到66.1%与61.1%的及格分数。可一旦切换到更严苛的“非线性计分”体系,成绩瞬间腰斩至49.4%与42.5%。

Non-Lin Score与A vg Acc对比:

图片

这两个分数的比值,直接揭示了模型的鲁棒性。一些小模型,如LLaVA-Video-7B,该比值仅为40%左右,极容易在同一个问题组里出现零散命中,根本无法稳定输出。

随着题组测试的深入,模型的“底牌”也被彻底看穿。在能力一致性测试中,强模型的准确率曲线相对平稳,展现出较好的稳定性。但在推理连贯性测试中,随着问题从“线索定位”向“因果解释”步步紧逼,所有模型的准确率均呈现平稳下降的趋势。而较弱的模型则干脆显示出极高的随机性,答题表现起伏不定,如同“抽卡”。

图片

一个有趣的发现是关于大模型热门的“思考”模式。数据证明,在文本模态(如有字幕)的环境下开启思考模式,通常能有效激发模型的推理能力,获得稳定的性能增益。然而,一旦抽掉字幕,仅靠纯视觉画面去“思考”,很多模型不仅没有进步,反而出现了严重的性能倒退。这清晰地表明,当前多模态大模型的“思考”机制,仍然极度依赖显式的语义线索,纯视觉推理依然是一个巨大的能力盲区。

图片

系统还将模型的底层能力抽象为三大块:全模态信息聚合、长上下文理解与复杂推理能力。同时具备这三项能力的大型模型,自然全面占据了榜单高位。不过,庞大的参数规模也能产生奇妙的“代偿效应”。例如,Qwen3.5-397B-A17B-Think虽然在设计上并不显式具备全模态能力,但凭借其巨大的参数规模所带来的长上下文处理与推理优势,依然拿到了39.1分,超过了某些能力配置更完整但参数较小的模型。

模型能力画像与得分:

图片

此外,模型能处理的视频帧数同样至关重要。Qwen3.5-397B在512帧设定下的得分,比64帧设定足足高出8.5分。这再次印证了一个直观的道理:对于视频理解,“看得越多,懂得越深”。

最后,各大模型的能力雷达图更是将它们的“偏科”情况展现得一目了然。Gemini-3-Pro在音频融合与长视频时序推理上遥遥领先,跨模态对齐能力出众。而其他一些模型则在细粒度动作语义建模与物理规律理解等维度上得分甚至不足30分,表明它们连一些基本的物理常识都未能完全掌握。

图片

总而言之,当剥去榜单高分的华丽外衣,当前最聪明的AI,在面对需要连贯逻辑的视频推理任务时,依然表现得像个步履蹒跚的学徒。这项研究如同一面镜子,清晰地映照出现有技术的边界。通往通用人工智能的道路上,还有无数这样的硬骨头,等待被啃下。

来源:https://www.51cto.com/article/841552.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
阿里千问AI语音助手上线 聊天即可查询预订机票与值机选座

阿里千问AI语音助手上线 聊天即可查询预订机票与值机选座

【快讯】阿里千问正式对外开放AI办事能力,首家接入中国东方航空,推出全流程AI直连机票服务。这意味着,用户现在可以通过自然语言,直接完成从航班查询、购票、选座到值机等一系列操作,而退改签服务则由东航官方提供支持。这标志着千问AI的能力边界,正从信息问答向实际事务执行迈出了关键一步。 阿里千问事业部总

时间:2026-05-18 14:53
小米MIMO V25大模型公测开启性能对标全球顶尖模型

小米MIMO V25大模型公测开启性能对标全球顶尖模型

今天,小米正式宣布,其Xiaomi MiMo-V2 5系列大模型面向公众开启测试。这次亮相的阵容包括MiMo-V2 5、V2 5-Pro、V2 5-TTS Series以及V2 5-ASR,在推理能力、智能体稳定性、上下文长度、指令理解与全模态感知等多个关键维度上,都实现了全面升级。值得关注的是,其

时间:2026-05-18 14:53
火山方舟OpenClaw安装步骤与详细教程

火山方舟OpenClaw安装步骤与详细教程

OpenClaw 安装与火山方舟接入配置全攻略 ![openclaw安装流程 +火山方舟](http: img 318050 com uploads 20260424 177698741669eaad1852cc8865485820 webp) 成功配置一款高效的开发工具,就如同完成一次精密的

时间:2026-05-18 14:53
OpenClaw 一键安装脚本 快速部署龙虾服务器

OpenClaw 一键安装脚本 快速部署龙虾服务器

想要快速部署一个功能全面、对中文支持出色的开源AI助手吗?今天介绍的OpenClaw,或许正是你寻找的解决方案。它基于先进的Llama 3 2架构进行深度优化,不仅具备出色的长上下文处理能力,还集成了代码解释器、实时联网搜索、多格式文件解析等强大功能。尤为重要的是,其部署流程经过极致简化,对中文用户

时间:2026-05-18 14:52
OpenClaw重置教程:人人养虾恢复出厂设置指南

OpenClaw重置教程:人人养虾恢复出厂设置指南

当OpenClaw系统运行出现卡顿、状态异常,或是您希望彻底清理环境重新开始时,openclaw reset命令是您不可或缺的故障排除与初始化工具。它相当于为OpenClaw执行一次“深度重启”,能够有效清理临时数据、会话缓存及异常状态,帮助系统恢复到稳定、干净的起点。 命令概要 该命令的标准使用格

时间:2026-05-18 14:52
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程