ECCV 2026:303道题揭示视频生成模型推理短板
视频生成模型无疑是当前最受瞩目的技术方向之一。从 Sora、Veo 到 Kling、Seedance,这些模型产出的画面已达到真假难辨的程度,对时间动态和物理规律的模拟也令人惊叹。说实话,从这些模型产出的视频里,你能明显感觉到,它们似乎已经在海量数据中默默学习并掌握了一种隐式的“世界模型”。 但一个
视频生成模型无疑是当前最受瞩目的技术方向之一。从 Sora、Veo 到 Kling、Seedance,这些模型产出的画面已达到真假难辨的程度,对时间动态和物理规律的模拟也令人惊叹。说实话,从这些模型产出的视频里,你能明显感觉到,它们似乎已经在海量数据中默默学习并掌握了一种隐式的“世界模型”。

但一个核心问题始终被有意或无意地忽略:当模型生成一段看起来“合理”的视频时,它真的在逐帧进行连贯的推理吗?亦或是,仅仅绘制出了一个看似正确的表面结果?
我们正式将这一维度定义为推理一致性(Reasoning Coherence)。简而言之,它衡量的是生成视频中,事件能否在帧与帧之间保持因果逻辑一致,并沿着可信的路径演化下去。
此前,已有一些工作尝试评估视频模型的推理能力。有的仅关注“最后一帧”来判断结果正确与否,有的则只评价单个物理现象是否合理。但它们都未能专门刻画“推理一致性”,因此也难以回答一个关键问题:究竟是推理链上的哪一个环节出了差错,才导致整个任务彻底失败?
MME-CoF-Pro 基准:从“答对”迈向“推对”
研究团队此前已提出 MME-CoF(arXiv:2510.26802,已被 CVPR 2026 Findings 接收),它系统性地探索了视频模型在 Chain-of-Frame(CoF)推理上的潜力,覆盖了 12 个维度。如今,被 ECCV 2026 收录的 MME-CoF-Pro 在此基础上进行了全面升级:推理类别从 12 个扩展至 16 个,将粗粒度的定性评估升级为经过人工校验的过程级 Reasoning Score,并且首次将“推理引导”(通过文字或视觉提示)作为可控变量,纳入评测体系。
论文地址:https://arxiv.org/abs/2603.20194v1
项目主页:https://video-reasoning-coherence.github.io/
Huggingface:https://huggingface.co/datasets/yqi19/mme-cof-pro
GitHub:https://github.com/yqi19/MME-CoF-Pro
该工作由美国东北大学联合香港中文大学、北京大学与 NVIDIA 共同完成。MME-CoF-Pro 是业界首个明确将“推理引导”作为可控变量,并在过程级别(process-level)评估视频推理一致性的基准,同时还提供了极为细粒度的错因分析与有趣的机理发现。
数据构成:303 个精心策划的样本
MME-CoF-Pro 一共包含303个精心策划的图像-文字-视频推理样本,370张图像,覆盖16个推理类别。这些样本从 27 个现有的真实与合成基准中筛选构建而成,并经过了领域专家三轮人工校验。
这 16 个类别被组织成四大能力组,从底层感知逐级递进到高层任务推理:
- 感知推理(Perceptual):视觉细节、旋转、物体计数;
- 空间与结构推理(Spatial & Structural):视觉轨迹、真实世界空间、2D / 3D 几何;
- 物理与因果推理(Physical & Causal):物理规律、4D 动态、自然科学;
- 任务导向推理(Task-oriented):具身操作、GUI 交互、医学影像、表格图表、文本/代码、视觉逻辑。
与以往工作最大的不同在于:MME-CoF-Pro 将“推理引导”视为一个可以显式控制的变量。每个样本都提供了 No Hint 与 Text Hint 两种设置;其中 8 个感知要求最高的类别(即 MME-CoF-Pro-mini)还额外提供了 Visual Hint。除提示部分外,其余指令完全保持一致:
- No Hint(无提示):标准设置,模型仅能凭任务指令独立推理;
- Text Hint(文字提示):在指令中补充关键推理步骤的文字描述;
- Visual Hint(视觉提示):在输入图像上绘制边界框、箭头或轨迹来进行引导。
由于只有提示内容在变化,其他条件完全相同,因此任何性能差异都可以因果地归因于推理引导本身。
Reasoning Score:直击推理链路的“手术刀”
传统的评测仅关注生成“质量”,无法回答模型是否真正理解世界。为此,团队提出了一项过程级指标:Reasoning Score(RS)。具体操作为:为每个样本标注一串经过人工校验的关键推理步骤,每一步都是正确生成所必须命中的 checkpoint;RS 即为模型正确完成的步骤比例,由判别模型(Gemini-2.5-Flash)逐步独立判定。
它不再是过去那种“答对/答错”的非黑即白判断,而是能够精准定位模型在推理链中哪一步崩溃,并支持跨模型的可靠比较。
测评实验:7 个模型的“推理大考”
在实验部分,作者全面评测了 7 个最强的闭源与开源视频生成模型:Veo-3.1、Veo-3.1-fast、Sora-2、Seedance-1.0-pro、Seedance-1.0-fast、Kling-v2.1 与 Cosmos-Predict2-14B,并在三种提示设置下进行了系统对比,得出了几个非常有意思的结论。
发现一:视频生成模型普遍不具备强推理能力,且推理能力与生成质量几乎完全解耦。
即便最强的 Veo 也仅拿到 56 分,Sora 为 50 分,其余模型明显落后——最好的也只是勉强超过 50 分。更值得警惕的是:高画质并不等同于会推理。值得关注的是:Kling 的综合生成质量(Avg)高达65.1,但其 Reasoning Score 却低至13.8。它能将微风吹过树林的动态渲染得惟妙惟肖,却完全未能遵循“逐渐放大并寻找手提包”的推理指令。推理,是一种与生成质量相互独立的能力——这一结论值得所有模型研发者反复品味。
发现二:文字提示是一把双刃剑——看似提升分数,实则诱发幻觉、损害一致性。
多数模型在加上文字提示后 RS 确实有所提升(Veo-3.1 +4.5、Sora-2 +7.6、Cosmos +6.7),但代价是 7 个模型的一致性分数(CS)几乎全线下降。尤其在 4D Dynamics 类别上,7 个模型的 CS 全部下滑(-1.2 至 -15.6)。模型似乎只是在“照本宣科”地执行字面指令——比如为了满足运动指令,凭空“分裂”出一个多余的物体。显式提示,更像是转移了模型的注意力,而非增强了它的理解。
发现三:视觉提示并非万能,对精细感知任务甚至会帮倒忙。
它在那些结构化、需要空间引导的任务(如具身操作、GUI 交互)上确实有帮助,但在视觉细节、物体计数这类精细任务上却拉了分数(Visual Detail:Veo-3.1 RS -13.0、CS -14.4)。更有意思的是,模型常常将视觉提示“画进”画面里——一个指示方向的箭头被当成了物体,渲染成一段弯曲的轨迹。作者推测这背后是训练数据的偏差:标注箭头或高亮常与合成内容同时出现,导致模型将“引导”误认为“内容”。
案例研究:提示越多,推理就越好吗?
一个很自然的问题随之产生:不断增加提示信息,能否稳定地提升推理表现?作者在 Frozen Lake 任务上,用 Sora-2 开展了一组渐进式的 scaling 实验。
结果表明,虽然文字与视觉提示带来的推理分数普遍高于无提示基线(0.23),但两条曲线都在各个阶段剧烈波动,没有清晰的上升趋势。这说明,当前的模型无法以累积的方式,稳定地利用越来越详细的提示信息——简单地堆叠提示,并不能保证推理表现的提升。这也指向了一个开放问题:如何让视频模型将多步提示,稳定地落地为连贯的推理轨迹?
人类研究:Reasoning Score 究竟靠不靠谱?
为了验证 RS 这个指标能否有效、独立地刻画视频推理能力,作者邀请了 10 位标注者,对随机抽取的视频按标注步骤进行打分,并与现有指标进行了对比。
结果显示,Reasoning Score 与人工评分的 Spearman 相关性高达 0.61,远远超过 Instruction Alignment(0.17),而与 Pass@5 last-frame correctness 则呈负相关(-0.41)。这充分说明:RS 比现有指标更能捕捉到人类视角下的推理行为,是评估推理一致性的有效指标。
结语
本文系统地评估了主流视频生成模型在推理一致性上的真实水平,提出了过程级评测指标 Reasoning Score,并通过文字/视觉提示的可控对比,深入分析了模型的失败模式与作用机理。
核心结论引人深思:当前的视频生成模型,更多是在“跟随”提示,而非真正“理解”并落地世界规律。在通往真正世界模型推理的道路上,更强的视觉对齐能力、指令理解能力与抗幻觉机制,仍然是我们必须攻克的关键挑战。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:ECCV 2026:303道题揭示视频生成模型推理短板要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点在 Degiro 上进行投资的用户,常常会遇到一个共同的痛点:平台自带的数据展示较为基础,若想获取更深入的投资组合分析、风险指标,甚至对未来走势做出预测,通常只能借助 Excel 手动处理。不过,现在有一款 Chrome 扩展程序可以完美解决这一难题——Mercury,专为 Degiro 用户量身打
在投资决策过程中,客观数据往往比主观直觉更值得信赖。名为Lorna的智能平台,运用独特的现金流分析体系,帮助投资者穿透虚饰的财务报表,直达企业真实的财务健康状况。 什么是Lorna?——数据驱动的现金流分析投资工具 简而言之,Lorna是一个以数据为核心驱动力的投资分析工具。其核心利器是独创的“现金
Front Street自动追踪你的每一笔消费,整合各类忠诚度计划,并提供财务洞察与省钱妙招——说白了,就是帮你把钱&包管得明明白白。 什么是Front Street? 简单讲,Front Street就是你的购物管家。它自动记录你在每个品牌、每家店的所有购买行为,然后把零散的忠诚度计划全部整合到一
在创投圈深耕多年,你会发现一个普遍难题:融资过程中,投资者关系维护、尽职调查、潜在投资人挖掘……这些环节往往耗费巨大精力,却又直接决定成败。如果能有一款工具将这些琐事自动化,让团队聚焦于真正重要的沟通与战略决策,那该多理想?Finta 正是为此而生。 什么是Finta? Finta 本质上是一款 A
- 日榜
- 周榜
- 月榜
热点快看
