耶鲁发布MMVU测试：评估AI视频理解能力的专业标尺

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

耶鲁发布MMVU测试：评估AI视频理解能力的专业标尺

热心网友时间：2025-09-19

转载

耶鲁大学研究团队近日推出MMVU评估系统，这项开创性工具能精准测试AI模型在专业视频解读方面的实际表现。通过让人工智能观看科研实验、外科手术流程、工程设备操作等专业场景视频并回答问题，这套系统构建起类似人类专业考试的评估机制，为AI能力发展标定了新的测量维度。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

多学科专业题库构建

研究团队精心打造了包含3000道专业试题的测试库，涵盖自然科学、临床医学、工程技术以及人文社科四大门类下的27个细分专业。所有题目均来自权威教材内容，并经过各领域顶尖专家审核，确保AI需要运用专业知识进行深度分析。典型测试案例包括：要求AI根据化学反应现象计算生成物比例，或通过观察机械运转解读其控制算法的实现逻辑。

测试设计与实施标准

为确保评估聚焦视觉理解能力，系统严格控制使用纯视觉素材，仅选用遵守CC协议的YouTube视频资源。专家团队创新采用"教材导向"出题流程：先确定学科知识点，再匹配相关视频片段，最终设计需要知识迁移的综合应用题。每道题均附详尽解析和专业背景说明，方便技术团队分析AI的错误模式。

模型对比测试结果

来自17家机构的32个前沿AI模型参与了测试，包括OpenAI等科技巨头的商业模型和开源社区的优秀作品。测试特别设置了"分步推理"和"快速应答"两种模式：前者要求模型输出完整思考链条，后者仅评估最终答案正确率。测试数据显示，OpenAI的o1系列模型以八成准确率领先群雄，Google的Gemini 2.0 Flash Thinking以微弱差距位居次席，多数参赛模型表现明显低于专业人类水平。

人类对比基准测试

为建立可靠参照系，研究组织了人类专家三重测试：首先进行限时闭卷考试，五位跨领域专家在3.5小时内完成120题随机测试，平均得分49.7%；开放资料查询权限后，正确率立即跃升至86.8%；最终参考标准答案修订阶段，准确率可达95.3%。纵向对比表明，顶尖AI已达人类专家开卷水平，但整体尚存显著差距。

AI认知局限分析

通过对6000余次错误应答的归类研究，识别出AI系统的五大认知缺陷：基础视觉误判占比18%，典型如机械构造识别错误；专业知识运用不当占20%，例如误诊临床影像特征；逻辑推理失误高达27%，包括错误解释物理现象；文本依赖过度占20%，表现为忽视视觉关键证据；自相矛盾论证占比6%。这些系统性缺陷揭示了AI在知识整合与复杂推理方面的根本短板。