北大与字节推出Open-o3+:视频嵌入时空证据让AI推理有迹可循
在人工智能领域,视频理解一直是个极具挑战性的难题。近日,由北京大学与字节跳动组成的联合科研团队,成功研发出全球首个将显式时空证据嵌入视频推理全过程的开源模型——Open-o3+Video。该模型突破了传统视频推理的局限,不仅能准确回答问题,还能在推理过程中同步标注关键事件的发生时间和具体位置,实现了真正意义上的可追溯推理。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
视频理解任务要求模型同时处理时间维度的动态变化与空间维度的场景交互。传统模型虽能识别画面中的物体和动作,却难以准确判断事件发生的具体时间和位置。Open-o3+Video通过创新性的技术架构,成功解决了这一难题。该模型采用非 agent 架构设计,避免了复杂的工具调用和多轮推理,在单次回复中即可完成“观察-思考-验证-回答”的完整闭环。实验数据显示,在多个视频推理测试中,其关键指标较现有模型提升最高达24.2%,性能表现超越GPT-4o和Gemini-2-Flash等闭源模型。
研发团队指出,实现视频推理的可解释性面临两大核心挑战:一是保持文本、时间戳和物体检测框在推理过程中的一致性;二是解决时空耦合监督数据的严重缺失问题。现有数据集要么仅提供时间标注,要么只有空间标注,缺乏统一的时空标注体系。为突破这一瓶颈,团队构建了首个面向显式时空推理的统一语料体系STGR,包含30万条监督微调数据和3.6万条强化学习数据,其中5900条高质量时空数据通过严格标注流程确保数据质量。
该模型采用独特的双阶段训练机制:首先通过监督微调阶段让模型掌握推理格式与输出规范,再基于GSPO的强化学习阶段优化时空对齐能力。研发团队特别设计了自适应时间临近机制和时间门控机制,前者通过动态调整时间奖励的容忍范围实现从粗定位到精定位的收敛,后者确保空间奖励计算仅在时间预测准确时启动。这种创新训练方式使模型能够稳定高效地学习时空推理能力。
在基准测试中,Open-o3+Video展现出卓越性能。在时空推理基准V-STAR上,其时间对齐和空间对齐指标分别提升14.4%和24.2%;在VideoMME、WorldSense等四个主流测试集中,模型在需要复杂推理的时空任务和传统视频识别任务中均表现突出。特别是在VideoMME-Long子任务中,模型准确率达到54.9%,较基线模型提升4.1个百分点。
消融实验验证了模型设计的有效性:双阶段训练机制使模型性能提升显著,关键奖励机制确保训练稳定性,统一时空标注数据对推理能力提升至关重要。可视化结果显示,模型在处理物体识别、动作分析和环境推理等任务时,不仅能给出准确答案,还能提供时间戳和目标框等可验证证据,使推理过程透明可信。
目前,该研究的论文、代码和模型已全部开源。这一突破性成果为视频多模态模型的发展开辟了新方向,有望推动人工智能从“能理解”向“能定位、能解释”的更高阶段迈进。科研团队表示,将持续完善时空推理数据与训练机制,为更长视频、更复杂场景下的问答任务提供可靠支撑。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
AWE探展追觅电视:多项首创高端影音技术亮相
追觅电视以“硬件创新+AI赋能”双轮驱动,全面展现高端影音硬实力 对于追求顶级家庭影音体验的用户而言,今年的AWE(中国家电及消费电子博览会)无疑是洞察行业趋势的关键窗口。在众多展品中,位于E7馆的追觅电视展区凭借其INNIX品牌全系高端产品线,吸引了大量观众驻足。展区通过一系列“硬核”技术创新,精
联想首款AI平板定档3月18日 京东开启独家预约
联想首款AI性能平板即将发布:搭载端侧一键部署OpenClaw技术,3月18日正式亮相 3月18日晚7点,联想将召开春季新品发布会,正式推出业界首款支持端侧一键部署OpenClaw的AI平板电脑。本次发布的产品线包括小新Pro 13、小新Pro GT 13以及YOGA Pad Pro 14 5 AI
AI PC亮相AWE京东展区,人气爆棚定义个人计算新范式
AWE 2026:京东携手英特尔、联想打造AI PC盛宴,超50款新品首发亮相,揭秘AI生活新体验 若要盘点本届AWE(中国家电及消费电子博览会)上人气最高、最具看点的展区,必然要属京东联合英特尔、联想等头部科技厂商共同呈现的AI PC专属体验区。该展区以“AI触手可及”为核心主题,集中展示了超过5
二十载RGB技术沉淀,索尼以真实色彩引领显示未来
索尼真彩RGB电视画质全球首秀:定义家庭影音新标准 在AWE 2026的舞台上,索尼凭借其全新真彩RGB电视的全球首次亮相,再次定义了高端电视的画质新高度。这次展示不仅是一场视觉盛宴,更是索尼二十余年来在真实色彩还原领域深厚技术积累的集中体现。通过引领行业的三原色精准控制技术,索尼不仅稳固了其在显示
雷鸟创新AWE斩获艾普兰创新奖 蝙蝠侠限定款国内首秀
雷鸟X3 Pro斩获AWE艾普兰创新大奖,开启全民AR生活新篇章 在上海新国际博览中心隆重揭幕的2026年中国家电及消费电子博览会(AWE)上,前沿AI科技与未来生活愿景激情碰撞。全球消费级AR领导品牌雷鸟创新,以其里程碑式的表现,定义了行业发展的新方向。 通过“顶尖硬件科技+顶级文化IP”的双轨战
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

