视频生成模型会推理吗?303道题全面揭示世界模型短板
视频生成模型无疑是近年来最受关注的人工智能技术方向之一。从Sora、Veo到Kling、Seedance,这些模型生成的画面已经达到以假乱真的水平,对时间动态和物理规律的模拟也常让人惊叹不已。越来越多的研究表明,这些模型在大规模视频数据的训练过程中,已经隐式地学习到了一种 "世界模型 "——即对现实世界
视频生成模型无疑是近年来最受关注的人工智能技术方向之一。从Sora、Veo到Kling、Seedance,这些模型生成的画面已经达到以假乱真的水平,对时间动态和物理规律的模拟也常让人惊叹不已。越来越多的研究表明,这些模型在大规模视频数据的训练过程中,已经隐式地学习到了一种"世界模型"——即对现实世界运行方式的某种内在理解机制。
然而,一个关键问题似乎一直被有意无意地忽略:当模型生成一段看似"合理"的视频时,它是否真的在每一帧之间进行着连贯的推理?还是说,它仅仅是根据概率拼凑出一个看起来正确的结果?
我们将这种能力正式定义为"推理一致性"(Reasoning Coherence)。简单来说,它指的是生成视频中的事件能否在帧与帧之间保持因果一致、令人信服的演化,而不是跳跃或断裂的片段。

实际上,已有一些研究工作尝试评估视频模型的推理能力。但它们有的只关注最后"一帧"的结果来判断对错,有的只评估单个物理现象是否合理。遗憾的是,这些方法都未能刻画"推理一致性"这一核心维度,自然也就无法回答那个更本质的问题:到底是在推理链条的哪一步走错了,才导致整个任务失败?
MME-CoF-Pro 基准
该研究团队此前已提出MME-CoF(相关论文已被CVPR 2026 Findings接收),首次系统性地探究了视频模型的"帧链推理"(CoF)潜力,覆盖了12个维度。如今,他们的升级版——MME-CoF-Pro,已被ECCV 2026接收。
这次升级是全面性的:推理类别从12个扩展至16个;更重要的是,它将粗粒度的定性评估升级为经过人工校验的、过程级别的"推理分数",并首次将"推理引导"作为可控变量纳入评测体系。

这项工作由美国东北大学联合香港中文大学、北京大学与NVIDIA共同完成。MME-CoF-Pro的核心贡献在于:它是业界首个明确将"推理引导"作为可控变量,并在过程级别(process-level)上评估视频推理一致性的基准。同时,它还提供了细粒度的错因分析以及一些有趣的机理发现。
数据构成

MME-CoF-Pro总共包含303个精心策划的图像-文字-视频推理样本,涉及370张图像,覆盖了16个推理类别。这些样本从27个现有的真实与合成基准中筛选构建,并经过领域专家的三轮人工校验。
这16个类别被组织成四大能力组,从底层的感知能力逐级递进到高层的任务推理:
- 感知推理:视觉细节、旋转判断、物体计数。
- 空间与结构推理:视觉轨迹追踪、真实世界空间认知、2D/3D几何关系。
- 物理与因果推理:物理规律遵从、4D动态模拟、自然科学常识。
- 任务导向推理:具身操作、GUI交互、医学影像分析、表格图表理解、文本/代码生成、视觉逻辑推理。

与以往工作最大的不同在于,MME-CoF-Pro 将"推理引导"作为一个可以显式控制的变量。每个样本都提供了无提示和文字提示两种设置;其中,对感知要求最高的8个类别(称为MME-CoF-Pro-mini)还额外提供了视觉提示。除提示部分外,其余指令完全一致:
- No Hint:标准设置,模型只能凭借任务指令独立推理。
- Text Hint:在指令中补充关键推理步骤的文字描述。
- Visual Hint:在输入图像上画出边界框、箭头或轨迹来引导。
由于只有提示在变化,其他条件完全相同,因此任何性能上的差异都可以因果地归因到推理引导本身。

Reasoning Score:直击推理链路的"手术刀"
传统的评测只看生成"质量",这根本无法回答模型到底是否理解世界。因此,研究者提出了一个过程级指标——Reasoning Score(RS)。简单来说,就是为每个样本标注一串经过人工校验的关键推理步骤,每一步都是正确生成必须命中的"检查点"。而RS,就是模型正确完成的步骤比例,由判别模型一步步独立判定。
它不再是"答对或答错"那种非黑即白的判断,而是能够精准定位模型到底是在推理链的哪一步"崩塌"的,并支持跨模型的可靠比较。这才是真正的"体检报告"。

测评实验
在实验部分,作者全面评估了7个最强的闭源与开源视频生成模型:Veo-3.1、Veo-3.1-fast、Sora-2、Seedance-1.0-pro、Seedance-1.0-fast、Kling-v2.1与Cosmos-Predict2-14B。在三种提示设置下进行对比后,得出了几个非常有趣的结论。
发现一:视频生成模型普遍不具备强推理能力,且推理能力与生成质量几乎完全解耦。
即便表现最好的Veo,得分也仅有56分,Sora是50分,其余模型明显落后。更值得关注的是:高画质绝不等于会推理。以Kling为例,它的综合生成质量评分高达65.1,但推理分数却低至13.8。它能把风吹树林的动态渲染得惟妙惟肖,却完全没有遵循"逐渐放大并寻找手提包"这样的推理指令。推理,是一种与生成质量相互独立的能力,甚至可以说是一种稀缺能力。

发现二:文字提示是一把双刃剑——看似提分,实则诱发幻觉、损害一致性。
多数模型加上文字提示后,推理分数有所提升,但代价是7个模型的一致性分数几乎全线下降,尤其是在"4D动态"任务上,7个模型的一致性分数全部下跌。这说明模型往往只是在"照本宣科"地执行字面指令,比如为了满足一个"运动"指令,凭空"分裂"出一个多余的物体。显式提示更像是转移了模型的注意力,而非增强其对物理世界的理解。
发现三:视觉提示并非万能,对精细感知任务甚至会帮倒忙。
视觉提示在那些结构化、需要空间引导的任务(如具身操作、GUI交互)上确实有帮助,但在视觉细节、物体计数这类精细任务上,却拉低了成绩。更有趣的是,模型常常把视觉提示"画进"画面里——指示方向的箭头被当成了一个物体,渲染成弯曲的轨迹。作者推测,这源于训练数据本身的偏差:标注的箭头、高亮等常常与合成内容共同出现,模型便将"引导"误当成了"内容"的一部分。
案例研究:提示越多,推理就越好吗?
一个很自然的问题就是:如果不断叠加提示信息,能否单调地提升推理表现?作者在"冰冻湖"任务上用Sora-2做了一组渐进式的提示增强实验。

结果很有意思:虽然文字与视觉提示带来的推理分数普遍高于无提示的基线,但两条曲线都在各个阶段剧烈波动,并没有清晰的上升趋势。这说明,当前的模型无法以累积的方式,稳定地利用越来越详细的提示信息。简单地堆叠提示,并不能保证推理能力的同步提升。这无疑指向了一个开放性的难题:如何让视频模型把多步提示,稳定地落地为连贯的推理轨迹?
人类研究:Reasoning Score 究竟靠不靠谱?
为了验证推理分数能否有效地、独立地刻画视频推理能力,作者邀请了10位标注者,对随机抽取的视频按照标注步骤进行打分,并与现有的其他指标进行了对比。

结果显示,推理分数与人工评分的斯皮尔曼相关性高达0.61,大幅超越了指令对齐指标和最后一帧正确率指标。这充分说明:Reasoning Score比现有的指标更能捕捉人类视角下的推理行为,是评估推理一致性的一个真正有效的"度量衡"。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:视频生成模型会推理吗?303道题全面揭示世界模型短板要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点Daetama是面向数据科学面试和SQL能力提升的练习平台,已收录超100个覆盖基础到进阶的SQL题目,求职板块与课程模块在开发中,团队保持每周更新节奏,提供系统性刷题与模拟面试场景。
SpeakMulti是一款AI驱动的配音平台,可将YouTube视频翻译成多种语言,保留原始说话者的音色和语调,降低本地化成本。用户提交视频并选择目标语言后,AI自动完成配音,并由专家团队审核,确保准确自然。
需求人群 如果你经常需要从图片中提取文字——例如整理截图内容、翻译图片里的外语文本、识别带有水印的图片信息——那么 Umi-OCR 无疑是一款相当实用的工具。它完全在本地运行,无需联网,对隐私保护极为友好。 产品特色 这款工具的核心亮点都集中在实用性上。截屏识别操作非常顺手,按下快捷键即可框选区域,
艺术创作与人工智能的融合,正在开启一个全新的创作时代。moonlightai 正是这样一款AI绘画工具,能够帮助用户通过人工智能快速生成不同风格的绘画作品——无论你想复刻文艺复兴时期的古典优雅,还是为画作注入梵高般炽热的笔触,甚至从艾沃佐夫斯基的海浪星空中汲取灵感,它都能轻松实现。 需求人群 简单来
- 日榜
- 周榜
- 月榜
热点快看
