当前位置: 首页
AI
耶鲁发布MMVU测试:评估AI视频理解能力的专业标尺

耶鲁发布MMVU测试:评估AI视频理解能力的专业标尺

热心网友 时间:2025-09-19
转载

耶鲁大学研究团队近日推出MMVU评估系统,这项开创性工具能精准测试AI模型在专业视频解读方面的实际表现。通过让人工智能观看科研实验、外科手术流程、工程设备操作等专业场景视频并回答问题,这套系统构建起类似人类专业考试的评估机制,为AI能力发展标定了新的测量维度。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

多学科专业题库构建

研究团队精心打造了包含3000道专业试题的测试库,涵盖自然科学、临床医学、工程技术以及人文社科四大门类下的27个细分专业。所有题目均来自权威教材内容,并经过各领域顶尖专家审核,确保AI需要运用专业知识进行深度分析。典型测试案例包括:要求AI根据化学反应现象计算生成物比例,或通过观察机械运转解读其控制算法的实现逻辑。

测试设计与实施标准

为确保评估聚焦视觉理解能力,系统严格控制使用纯视觉素材,仅选用遵守CC协议的YouTube视频资源。专家团队创新采用"教材导向"出题流程:先确定学科知识点,再匹配相关视频片段,最终设计需要知识迁移的综合应用题。每道题均附详尽解析和专业背景说明,方便技术团队分析AI的错误模式。

模型对比测试结果

来自17家机构的32个前沿AI模型参与了测试,包括OpenAI等科技巨头的商业模型和开源社区的优秀作品。测试特别设置了"分步推理"和"快速应答"两种模式:前者要求模型输出完整思考链条,后者仅评估最终答案正确率。测试数据显示,OpenAI的o1系列模型以八成准确率领先群雄,Google的Gemini 2.0 Flash Thinking以微弱差距位居次席,多数参赛模型表现明显低于专业人类水平。

人类对比基准测试

为建立可靠参照系,研究组织了人类专家三重测试:首先进行限时闭卷考试,五位跨领域专家在3.5小时内完成120题随机测试,平均得分49.7%;开放资料查询权限后,正确率立即跃升至86.8%;最终参考标准答案修订阶段,准确率可达95.3%。纵向对比表明,顶尖AI已达人类专家开卷水平,但整体尚存显著差距。

AI认知局限分析

通过对6000余次错误应答的归类研究,识别出AI系统的五大认知缺陷:基础视觉误判占比18%,典型如机械构造识别错误;专业知识运用不当占20%,例如误诊临床影像特征;逻辑推理失误高达27%,包括错误解释物理现象;文本依赖过度占20%,表现为忽视视觉关键证据;自相矛盾论证占比6%。这些系统性缺陷揭示了AI在知识整合与复杂推理方面的根本短板。

技术突破方向

测试中发现两个显著现象:部分开源模型表现超预期,如Qwen2-VL-72B在闭卷模式下超越了人类平均水平;具备长时推理优化的模型优势明显,通过延长计算周期,o1和Gemini 2.0的准确率可提升15%以上。这表明适当延长AI"思考时间"可能是提升专业理解的有效路径。

这项研究建立了首个专业视频认知评估体系,通过实证数据表明:即便最先进的AI系统,在医学影像判读、工程原理解析等专业领域仍处于初级阶段。MMVU框架将持续跟踪AI的专业能力进化,为突破知识整合、情境理解和逻辑推演等关键技术瓶颈提供科学参照。

来源:https://www.itbear.com.cn/html/2025-09/961171.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
逼AI当山顶洞人!Claude防话痨插件爆火,网友:受够了AI废话

逼AI当山顶洞人!Claude防话痨插件爆火,网友:受够了AI废话

新智元报道编辑:元宇【新智元导读】一个让AI像原始人一样说话的插件,在HN上一夜爆火,冲破2w星。它的核心只是一条简单粗暴的prompt:删掉冠词、客套和一切废话,号称能省下75%的输出token。

时间:2026-04-07 14:55
季度利润翻 8 倍,最赚钱的「卖铲人」财报背后,内存涨价狂潮如何收场?

季度利润翻 8 倍,最赚钱的「卖铲人」财报背后,内存涨价狂潮如何收场?

AI 时代最赚钱的公司,可能从来不是做 AI 的那个。作者|张勇毅编辑|靖宇淘金热里最稳赚的人,从来不是淘金的,是卖铲子的。这句老话在 2026 年的科技行业又应验了一次。只不过这次卖铲子的不是英伟

时间:2026-04-07 14:49
Claude Code Harness+龙虾科研团来了!金字塔分层架构+多智能体

Claude Code Harness+龙虾科研团来了!金字塔分层架构+多智能体

Claw AI Lab团队量子位 | 公众号 QbitAI你还在一个人做科研吗?科研最难的,从来不是问题本身,而是一个想法从文献到实验再到写作,只能靠自己一点点往前推。一个人方向偏了没人提醒,遇到歧

时间:2026-04-07 14:43
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。它们生成的轨迹经常陷入局部合理但全局偏航的窘境。它们太关注眼前的每一步,却忘了最终的目的地。针对这一痛点,厦门大学和香港科技大

时间:2026-04-07 14:37
美国犹他州启动新试点项目:AI为患者开具精神类药物处方

美国犹他州启动新试点项目:AI为患者开具精神类药物处方

IT之家 4 月 5 日消息,据外媒 PC Mag 当地时间 4 月 4 日报道,美国医疗机构 Legion Health 在犹他州获得监管批准,启动一项试点项目,允许 AI 系统为患者开具精神类药

时间:2026-04-07 14:30
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程