当前位置: 首页
科技数码
小米AI视频理解技术揭秘:机器如何真正"看懂"视频内容

小米AI视频理解技术揭秘:机器如何真正"看懂"视频内容

热心网友 时间:2026-01-20
转载


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项由小米人工智能实验室(MiLM Plus)的李佳泽领导,联合独立研究者以及中国人民大学团队合作完成的研究,发表于2025年11月的计算机视觉领域顶级会议论文中。有兴趣深入了解的读者可以通过论文编号arXiv:2511.13026v1查询完整论文。

当你在看一部长电影时,如果朋友突然问你"刚才那个场景里谁救了谁",你可能会本能地回想刚才看到的画面,重新审视那些关键镜头。现在,研究团队让人工智能也学会了这种"回看思考"的能力。

目前的AI视频理解系统就像一个只能"一遍过"看视频的观众,看完就必须立即给出答案,不能重新检查可能遗漏的重要细节。特别是面对长视频时,这种限制变得更加明显。就好比你被要求看完一部两小时的电影后,不允许回想任何情节就要回答复杂问题一样困难。

研究团队发现了现有AI系统的一个重要缺陷:当这些系统需要理解长视频内容时,它们只会重新思考文字描述,却不会重新审视视频画面本身。这就像一个学生在考试时只反复读题目,却不重新观察图表和图像一样。相比之下,人类在遇到复杂视频理解任务时,会自然地回到关键画面进行再次观察和思考。

为了解决这个问题,研究团队开发了名为REVISOR的创新框架。这个名字本身就很有意思——它结合了"反思"(Reflective)、"视觉"(Visual)、"片段"(Segment)和"推理"(Reasoning)四个关键概念。可以把REVISOR比作一个配备了"倒带功能"的智能视频观察者。

REVISOR的工作方式非常巧妙,分为两个阶段进行。第一个阶段类似于快速浏览,AI系统会先粗略地看一遍整个视频,形成初步印象,同时标记出那些看起来最重要或最让它困惑的时间段。就像你快速翻阅一本书时会用便签纸标记重要章节一样。

在第二个阶段,AI系统会启动"视觉工具箱",重新仔细观察那些被标记的关键片段。这时,它会用更高的精度重新采样这些片段的画面,获得比第一遍观看时更详细的视觉信息。然后,AI系统会结合初步观察的结果和新获得的详细画面信息,进行深入的反思和重新推理,最终得出更准确的答案。

这个过程就像一个侦探在调查案件时的工作方式。侦探会先听取案件的大致情况,形成初步判断,然后重返现场仔细检查那些最可疑的区域,寻找之前可能遗漏的关键证据,最后综合所有信息得出结论。

为了确保AI系统能够准确地找到真正重要的视频片段,研究团队还设计了一个精巧的训练机制,叫做"双重归因解耦奖励机制"(DADR)。这个机制的工作原理有点像训练一个学生同时掌握两种技能:既要能给出正确答案,又要能准确指出支持这个答案的关键证据。

传统的AI训练方法只关注最终答案是否正确,就像只看考试分数而不关心学生的解题过程。而DADR机制除了要求AI给出正确答案外,还要求它能够准确识别出那些对得出正确答案至关重要的视频片段。只有当AI既能给出正确答案,又能准确定位关键证据时,它才会获得最高的奖励分数。

这种训练方式确保了AI不仅仅是"碰运气"答对题目,而是真正理解了视频内容的逻辑关系。就像训练一个学生不仅要会做题,还要能够清楚地解释自己的解题思路一样。

研究团队在多个权威数据集上测试了REVISOR的效果,结果令人印象深刻。在VideoMME这个具有挑战性的长视频理解基准测试中,REVISOR相比基础模型提升了1.4%的准确率,在专门针对长视频的子集上更是提升了2.8%。在MLVU数据集(包含长达120分钟的视频)上,准确率提升了2.5%。这些数字虽然看起来不大,但在AI领域,即使是1%的提升也往往需要大量的技术突破才能实现。

更有趣的是,研究团队还发现REVISOR在视频片段定位任务上表现出色。在Charades-STA数据集上,它达到了51.4%的精确定位率,比之前的最佳方法提升了4.1%。这说明REVISOR不仅能够理解视频内容,还能够准确地找到支持其结论的关键证据。

为了深入了解REVISOR为什么有效,研究团队进行了详细的分析实验。他们发现了一个非常有趣的现象:在训练过程中,AI系统生成的文字推理内容越来越短,而选择重新观看的视频片段则先增长后缩短。这个变化模式揭示了AI学习过程中的一个重要洞察。

文字推理变短说明AI逐渐认识到,对于长视频理解任务,纯粹的文字思考作用有限,关键在于视觉信息的重新审视。而视频片段长度的变化则表明,AI首先学会了扩大搜索范围以确保不遗漏重要信息,然后又学会了精确定位,去除冗余内容。这个学习过程很像人类专家技能的发展轨迹:从广泛探索到精确聚焦。

研究团队还进行了一个对照实验,强制让AI进行更长的文字推理。结果发现,这样做反而导致了性能下降。这进一步证实了他们的核心观点:对于长视频理解,视觉重新审视比文字反思更为重要。

这项研究的意义远远超出了技术本身。在当今视频内容爆炸的时代,从短视频平台到在线教育,从安防监控到医疗诊断,长视频理解技术有着广泛的应用前景。REVISOR提出的"视觉反思"理念为AI系统处理复杂视觉信息提供了新的思路。

比如在教育领域,这种技术可以帮助AI系统更好地理解课堂录像,准确识别学生的学习状态和关键知识点。在安防监控中,AI可以更准确地识别异常事件,并定位到具体的关键时刻。在内容创作领域,AI可以帮助编辑快速找到视频中的精彩片段。

研究团队特别强调,REVISOR框架不需要额外的监督学习训练或外部模型支持,这意味着它可以很容易地集成到现有的AI系统中。这种设计的实用性为技术的广泛应用奠定了基础。

更重要的是,这项研究提供了一个全新的视角来思考AI的学习和推理过程。传统上,我们倾向于让AI系统"一次性"处理信息,就像填鸭式教育一样。而REVISOR证明了"回看思考"的价值,这更接近人类的自然学习方式。

这种视觉反思机制也为未来的多模态AI发展指明了方向。随着AI需要处理的信息越来越复杂,单纯依靠"直觉式"的一次性处理可能无法满足需求。REVISOR展示了一种更加深思熟虑的AI推理模式,这可能成为下一代智能系统的重要特征。

当然,这项研究也还有进一步改进的空间。目前的系统主要针对视频内容,未来可能会扩展到其他类型的多模态内容。另外,如何在保持准确性的同时进一步提高效率,也是一个值得探索的方向。

说到底,REVISOR的核心贡献在于它让我们重新思考了AI系统应该如何处理复杂信息。它证明了有时候"慢下来,仔细看"比"快速处理"更有价值。这不仅是技术上的进步,也是AI系统向人类认知方式靠近的重要一步。归根结底,这项研究为我们展示了一个更加"深思熟虑"的AI未来,在这个未来里,AI不仅能够快速处理信息,还能够像人类一样进行反思和重新审视。这种能力的重要性,在我们面临越来越复杂的信息世界时显得尤为珍贵。

Q&A

Q1:REVISOR框架是如何工作的?

A:REVISOR采用两阶段工作模式。首先快速浏览整个视频形成初步印象并标记关键片段,然后用视觉工具箱重新仔细观察这些片段,结合初步结果和详细视觉信息进行深入反思,最终得出准确答案。就像侦探先了解案件概况再深入调查可疑区域一样。

Q2:双重归因解耦奖励机制DADR有什么作用?

A:DADR机制确保AI系统既能给出正确答案又能准确定位关键证据。它不像传统训练只看最终答案对错,而是要求AI准确识别支持答案的重要视频片段。只有答案正确且证据定位准确时才给予最高奖励,避免AI"碰运气"答题。

Q3:REVISOR在长视频理解上效果如何?

A:在多个权威测试中表现出色。VideoMME数据集上准确率提升1.4%,长视频子集提升2.8%;120分钟视频的MLVU数据集提升2.5%;视频片段定位任务达到51.4%精确率,比之前最佳方法提升4.1%。这些提升在AI领域意义重大。

来源:https://www.163.com/dy/article/KJLVKBBT0511DTVV.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
中国联通Al+eSIM云智终端合作方案巴展全球首发

中国联通Al+eSIM云智终端合作方案巴展全球首发

中国联通与GSMA联合发布“AI+eSIM”云智终端全球解决方案 2026年世界移动通信大会(MWC)在西班牙巴塞罗那盛大召开,全球科技行业的焦点于此汇聚。展会期间,一项由中国运营商主导并具备全球视野的创新方案正式发布,为人工智能与通信技术的深度融合揭示了清晰的技术路径与产业前景。 AI与eSIM技

时间:2026-04-02 20:38
苹果MacBook Neo一砍再砍,把价格砍下来的就是家人?

苹果MacBook Neo一砍再砍,把价格砍下来的就是家人?

苹果春季发布会深度解读:史上最便宜MacBook亮相,精准定位轻量级市场 苹果春季新品发布会虽已结束,但引发的讨论热潮不减。本次发布会在笔记本电脑产品线上动作显著,一次性推出多款新品,并首次以“高性价比”策略推出入门级MacBook,旨在开拓更广泛的用户市场。备受瞩目的MacBook Neo起售价定

时间:2026-04-02 20:37
AI+eSIM落地 中国联通5G AI CPE巴展重磅亮相

AI+eSIM落地 中国联通5G AI CPE巴展重磅亮相

“AI+eSIM”云智终端方案正式商用,首批合作项目5G AI CPE成功落地 在MWC 2026世界移动通信大会上,产业合作迎来重大进展。由全球移动通信系统协会(GSMA)与中国联通共同倡导的“‘AI+eSIM’云智终端合作联通方案”正式对外发布,并迅速完成首个商业化项目签约。中国联通联合通则康威

时间:2026-04-02 20:36
苹果iOS 26.3.1更新 国行版苹果智能依旧缺席

苹果iOS 26.3.1更新 国行版苹果智能依旧缺席

苹果iOS 26 3 1正式版更新详解:专攻外接显示器支持,国行AI功能何时到来? 苹果iOS系统新一轮更新如期而至。本次推送的iOS 26 3 1正式版,与外界预期一致,并非一次功能上的重大迭代。它的定位非常清晰:不追求功能数量的堆叠,而是侧重于“问题修复与体验完善”,旨在通过修补已知漏洞和优化现

时间:2026-04-02 20:31
泡泡玛特下月将推出以 IP 为核心的衍生小家电产品,消息称由新宝股份代工

泡泡玛特下月将推出以 IP 为核心的衍生小家电产品,消息称由新宝股份代工

泡泡玛特跨界布局小家电赛道,4月首发IP衍生新品,新宝股份确认代工生产 3月25日,泡泡玛特在其2023年度业绩电话会议中宣布了一项重量级业务拓展计划。公司董事长兼CEO王宁披露,将于4月正式推出旗下首条以自有IP为核心的衍生产品线——系列小家电,并计划同步登录京东等主流线上销售渠道。这一动作被视为

时间:2026-04-02 20:28
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程