中科大南大联手赋能AI视频理解，实现动态场景精准解析

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

中科大南大联手赋能AI视频理解，实现动态场景精准解析

热心网友时间：2026-03-16

转载

当你在看电视时突然想起一个问题： "刚才那个角色拿的是什么东西？ "或者 "接下来会发生什么？ "，如果有一个AI助手能立即回答你，那会是什么体验？这听起来像科幻电影中的情节，但中国科学技术大学信息科学技术

当你在看电视时突然想起一个问题："刚才那个角色拿的是什么东西？"或者"接下来会发生什么？"，如果有一个AI助手能立即回答你，那会是什么体验？这听起来像科幻电影中的情节，但中国科学技术大学信息科学技术学院、上海人工智能实验室、复旦大学计算机科学与人工智能学院以及南京大学计算机软件新技术国家重点实验室的研究团队却将这个幻想变成了现实。

这项突破性研究发表于2026年的国际学习表征会议（ICLR），论文编号为arXiv:2603.03985v1。研究团队创建了一个名为RIVER的全新评测基准，这是首个专门评估AI系统与人类进行实时视频对话能力的综合测试平台。说得更直白一些，就像给AI设计了一场"看视频聊天"的考试，看它能否像人类一样边看边聊，随时回答问题。

过去的AI视频理解系统就像一个只能在电影结束后写影评的观众——必须看完整部电影才能告诉你发生了什么。而这项研究要解决的问题是：如何让AI成为一个能够边看边聊的观影伙伴？这个看似简单的转变，实际上需要AI具备三种核心能力：记住之前看到的内容（回忆过去），理解当前正在发生的事情（把握现在），以及预测即将出现的情况（展望未来）。

研究团队面临的挑战可以用这样的场景来理解：当你和朋友一起看一部两小时的电影时，朋友可能随时问你"刚才那个人是谁？""现在他在做什么？"或者"你觉得接下来会怎样？"作为人类，我们能够轻松应对这些问题，因为我们有记忆、注意力和预测能力。但对于AI来说，这却是一个巨大的技术挑战。

为了验证和改进AI的这种能力，研究团队构建了包含超过4000个问题的RIVER评测基准。这些问题涵盖了从几秒钟到数小时不等的视频片段，就像设计了一套从小学到研究生难度递增的考试题。通过这套测试，研究人员发现了一个令人惊讶的现象：那些在传统视频理解任务中表现优秀的AI系统，在实时互动场景中却表现平平，就好比一个能写出优美文章的人，却在日常对话中磕磕绊绊。

针对这个问题，研究团队提出了一套创新的解决方案。他们为AI设计了一个类似人类记忆系统的架构，包括短期记忆和长期记忆两个部分。短期记忆负责处理当前几秒钟内的视频内容，而长期记忆则储存之前看过的重要信息。这种设计让AI能够在处理新信息的同时，保持对历史内容的记忆，从而支持更自然的实时对话。

一、AI视频理解的革命性转变

传统的AI视频理解就像一个考古学家，只有在挖掘完整个遗址后才能告诉你这里曾经发生过什么。这种"离线"模式在许多应用场景中显得力不从心。比如，当你在使用增强现实导航时，你需要的是实时的路况提醒和方向指引，而不是在到达目的地后才得到的路线总结。同样，在机器人辅助手术或智能监控等关键应用中，实时响应能力更是生死攸关。

研究团队深刻意识到这个问题的重要性。他们发现，现有的AI系统虽然在理解完整视频内容方面表现出色，但在处理流媒体视频、支持实时互动方面却存在根本性缺陷。这种缺陷不仅限制了AI在实际应用中的效果，也阻碍了人工智能向更自然、更智能方向的发展。

为了解决这个问题，研究团队提出了"在线多模态大语言模型"这一全新概念。与传统模型不同，这种新型AI系统能够在视频播放的同时进行理解和交互，就像一个真正的观影伙伴。这种转变不仅仅是技术上的进步，更代表了AI理解方式的根本性革新。

这种革命性转变的意义远不止于技术层面。在教育领域，教师可以在播放教学视频的同时，让AI助手回答学生的即时问题。在医疗诊断中，医生可以在观察手术视频时，实时询问AI对特定细节的分析。在娱乐产业，观众可以在观看电影时，随时了解剧情背景或演员信息。这些应用场景都需要AI具备强大的实时视频理解和交互能力。

然而，实现这种转变面临着巨大的技术挑战。AI需要在有限的计算资源下，同时处理视觉信息、语言交互和时序推理。这就像要求一个人在骑自行车的同时，还能流利地进行多语言翻译——技术难度可想而知。

二、RIVER评测基准：AI视频理解能力的全面体检

为了准确评估AI的实时视频理解能力，研究团队创建了RIVER这一创新性评测基准。这个基准就像是为AI设计的一套全面体检项目，从多个角度测试其在实时视频交互中的表现。

RIVER的核心创新在于它将实时视频交互分解为三个基本能力：回顾记忆、实时感知和前瞻响应。回顾记忆考察的是AI能否记住并准确回忆之前看过的视频内容，这就像测试一个人在看完电影前半段后，是否还记得开头的重要情节。实时感知则考验AI对当前正在发生事件的理解能力，类似于测试一个人是否能准确描述眼前正在进行的活动。前瞻响应最为复杂，它要求AI不仅要理解当前状况，还要能预测即将发生的事情，并在合适的时机给出响应。

在构建这个评测基准时，研究团队面临着一个重要挑战：如何确保测试的真实性和全面性。他们从多个知名数据集中精心筛选了1067个视频，总共包含4278个精心设计的问题。这些视频涵盖了从日常生活场景到专业领域的各种内容，时长从几秒钟到数小时不等，确保了测试的多样性和实用性。

更重要的是，RIVER不仅关注答案的准确性，还特别强调时间因素的重要性。在真实的人机交互中，一个迟到的正确答案可能比一个及时的近似答案价值更低。因此，RIVER创新性地引入了时间敏感的评分机制，就像给AI的反应速度也打分一样。

研究团队在设计问题时格外用心。他们不仅要确保问题的质量和相关性，还要防止AI通过简单的语言推理就能获得答案。为此，他们使用了大语言模型来筛选问题，剔除那些不需要视觉信息就能回答的问题。这种严格的筛选过程确保了每个问题都真正考察AI的视频理解能力。

在回顾记忆测试中，研究团队特别关注时间间隔对AI记忆能力的影响。他们发现，就像人类会随着时间推移而遗忘一样，AI的记忆能力也会随着时间间隔的增长而衰减。不过，令人惊讶的是，配备了专门记忆模块的AI系统表现出了比人类更稳定的长期记忆能力，这为未来的应用开辟了新的可能性。

在实时感知测试中，研究重点考察AI对当前视频内容的理解深度和准确性。这包括对场景环境、人物动作、物体属性等多个方面的理解。测试结果显示，不同AI系统在处理动态场景和静态场景时表现差异显著，这为进一步优化提供了重要参考。

前瞻响应测试是最具挑战性的部分。AI不仅要理解当前情况，还要预测未来事件并在适当时机做出响应。研究团队将这类测试进一步细分为即时响应和持续响应两种类型。即时响应要求AI在特定事件发生时立即给出答案，而持续响应则要求AI能够持续描述正在进行的活动，就像一个现场解说员。

三、技术创新：为AI装上时空记忆系统

面对实时视频理解的挑战，研究团队提出了一套创新的技术解决方案。这个方案的核心思想是为AI构建一个类似人类的记忆系统，让它能够在处理新信息的同时保持对历史内容的记忆。

这套记忆系统采用了长短期记忆的架构设计。短期记忆就像人脑中的工作记忆，负责处理当前几秒钟内的视频内容，确保AI能够准确理解正在发生的事情。长期记忆则类似于人类的长期记忆库，储存之前看过的重要信息，让AI能够回答关于过去事件的问题。

在技术实现上，这个系统采用了滑动窗口采样策略。把整个视频想象成一条长长的胶卷，AI通过一个移动的取景器来观察内容。取景器每秒钟移动一次，每次都会捕获新的画面信息。新信息会被储存到短期记忆中，而较早的信息则会被压缩并转移到长期记忆库中。

这种压缩过程特别巧妙。研究团队受到人类记忆机制的启发，设计了一套基于相似度的记忆合并算法。当长期记忆库接近饱和时，系统会自动识别相似的记忆片段并将它们合并，就像人脑会将相似的经历整合成更抽象的记忆一样。这种设计既节省了存储空间，又保持了重要信息的完整性。

在实际应用中，当用户向AI提出问题时，系统会同时查询短期和长期记忆，然后综合这些信息生成答案。为了确保响应的时效性，系统还配备了一个智能的时间戳管理机制，能够准确追踪每个记忆片段对应的时间点。

研究团队还特别关注了多模态信息的融合处理。视频不仅包含视觉信息，还可能包含音频和文字等其他类型的信息。他们设计的系统能够同时处理这些不同类型的信息，并将它们整合成一个统一的表示，就像人类大脑能够同时处理看到的、听到的和想到的信息一样。

为了验证这套技术方案的有效性，研究团队进行了大量的实验测试。他们将配备了这套记忆系统的AI与传统的AI系统进行了对比，结果显示新系统在回顾记忆任务中的表现提升了12%，在实时感知任务中也表现出了明显的优势。

特别值得一提的是，这套系统还具有很好的可扩展性。研究团队通过调整记忆库的大小和压缩策略，可以让同一套系统适应不同长度的视频和不同复杂度的应用场景。这种灵活性为未来的实际应用提供了重要保障。

四、实验发现：揭示AI视频理解的真实水平

通过RIVER评测基准的全面测试，研究团队获得了许多令人深思的发现。这些发现不仅揭示了当前AI系统的真实能力水平，也为未来的改进方向提供了重要指导。

最令人意外的发现是，那些在传统视频理解任务中表现卓越的AI系统，在实时交互场景中的表现却令人失望。以GPT-4o为例，这个在多个基准测试中名列前茅的AI系统，在RIVER测试中的某些项目上仅获得了1.63分的低分。这就像一个在笔试中获得满分的学生，在面试环节却表现平平，说明传统评测方法可能存在盲区。

更深入的分析显示，不同类型的AI系统在各项测试中表现出了明显的差异化特征。商业化的闭源模型，如GPT-4o和Gemini，虽然在整体性能上领先，但在处理长时间序列和复杂时序推理方面显露出明显短板。相比之下，一些专门针对视频处理优化的开源模型，虽然在综合得分上不及前者，但在特定任务上却表现出了出人意料的优势。

研究团队特别关注了AI记忆能力随时间的变化规律。通过对不同时间间隔下的回忆测试，他们绘制出了AI的"遗忘曲线"。有趣的是，这条曲线与著名的艾宾浩斯遗忘曲线存在显著差异。传统AI系统的记忆衰减相对平缓，但在某些关键时间点会出现急剧下降。而配备了专门记忆模块的AI系统则表现出了更加稳定的长期记忆能力，甚至在某些情况下比人类记忆更可靠。

在视觉线索分析方面，研究团队将测试问题分为三类：精细视觉线索、因果关系线索和背景环境线索。结果显示，几乎所有AI系统在处理因果关系线索时都表现不佳，这揭示了当前AI在事件推理和逻辑分析方面的根本性不足。这个发现对于理解AI的认知局限性具有重要意义。

时间敏感性测试揭示了另一个重要问题。研究发现，大多数AI系统在回答问题时存在明显的延迟，这种延迟不仅影响用户体验，更重要的是可能导致信息的时效性丧失。例如，当用户询问"现在屏幕上的人在做什么"时，如果AI需要几秒钟才能回答，那么答案可能已经不再准确。

更进一步的分析显示，AI系统的性能与视频长度之间存在复杂的非线性关系。出人意料的是，并非所有系统都随着视频长度增加而性能下降。一些系统在处理中等长度视频（30分钟到1小时）时表现最佳，而在处理短视频或超长视频时反而性能下降。这一发现提示，不同应用场景可能需要针对性的优化策略。

研究团队还观察到了一个有趣的现象：AI系统在处理不同类型内容时表现出明显的偏好性。例如，某些系统在处理第一人称视角的日常活动视频时表现优异，但在处理第三人称视角的电影片段时就显得力不从心。这种偏好性反映了训练数据的影响，也为未来的数据收集策略提供了重要参考。

五、训练优化：让AI学会实时互动的艺术

认识到现有AI系统的局限性后，研究团队着手开发专门的训练方法来提升AI的实时视频交互能力。这个过程就像训练一个导游，不仅要让他熟悉景点的历史文化，还要教会他如何根据游客的即时提问给出恰当的回应。

训练数据的构建是这个过程中最关键的环节。与传统的视频理解训练不同，实时交互训练需要大量带有精确时间标注的对话数据。研究团队从多个来源收集了这些珍贵的训练素材，包括自然对话记录、专业解说词以及专门设计的交互场景。

这些训练数据有一个特殊的特征：问题的提出时间是随机的，而不是固定在视频的开始或结束。这种设计模拟了真实生活中的交互场景，用户可能在视频播放的任何时刻提出问题。为了实现这一点，研究团队开发了一套复杂的时间戳随机化算法，确保AI能够适应各种可能的交互时机。

在模型架构方面，研究团队选择了VideoLLM-Online作为基础框架，但对其进行了重要改进。他们采用了SigLIP-Large-Patch16视觉编码器来处理视频帧，每秒处理4帧的采样率确保了既能捕获关键信息，又不会因为数据过载而影响实时性能。每个视频帧被编码为包含全局信息和局部细节的综合表示，这种设计让AI能够同时把握整体场景和具体细节。

训练过程采用了创新的多目标优化策略。除了传统的语言建模损失外，研究团队还引入了专门针对流媒体场景的损失函数。这个额外的损失函数鼓励模型在合适的时机给出响应，避免过早或过晚的回答。这就像教导一个学生不仅要知道正确答案，还要知道什么时候说出答案最合适。

为了提高训练效率，研究团队使用了低秩适应（LoRA）技术。这种技术允许在不修改整个大型模型的情况下，只调整其中的关键参数。这不仅大大减少了计算资源的需求，还提高了训练的稳定性。他们将LoRA应用于模型的所有线性层，包括注意力机制和前馈网络，确保了全面而高效的参数调整。

训练数据中还包含了一个重要创新：多轮对话场景的模拟。在真实应用中，用户往往会就同一个视频提出多个相关问题，这些问题之间可能存在逻辑关联。为了让AI能够处理这种复杂交互，研究团队在训练数据中加入了大量的多轮对话示例，教会AI如何维持对话的连贯性和上下文理解。

特别值得一提的是，研究团队在训练中引入了"静默"机制。在实时交互中，并非每个时刻都需要AI做出回应，有时候保持静默是最合适的选择。通过在训练数据中加入特殊的静默标记，AI学会了判断何时应该回应，何时应该继续观察。这种能力对于避免过度打扰用户具有重要意义。

训练完成后的测试结果令人鼓舞。经过专门训练的AI系统在前瞻响应任务中的准确率提升了11.28%，这个提升幅度在技术角度来说是非常显著的。更重要的是，系统在响应时间上也有了明显改善，平均响应延迟减少了约30%，这让实时交互变得更加自然流畅。

六、应用前景：从实验室走向日常生活

RIVER研究的成果不仅在学术层面具有重要意义，更重要的是它为AI技术在实际生活中的应用开辟了广阔前景。这些应用场景的实现将彻底改变我们与视频内容交互的方式。

在教育领域，这项技术的应用前景特别令人兴奋。想象一下，学生在观看教学视频时可以随时向AI助手提问，比如"刚才这个化学反应的原理是什么？"或者"能再详细解释一下这个数学公式吗？"AI助手能够根据视频进度和学生的提问，提供个性化的解答和补充说明。这种互动式学习方式将大大提高学习效率和学习体验。

医疗诊断是另一个具有巨大潜力的应用领域。医生在观看手术视频或病理片段时，可以实时询问AI关于特定症状、操作技巧或诊断建议的问题。AI能够结合医学知识库和当前观察到的视觉信息，为医生提供及时准确的专业建议。这种辅助不仅能提高诊断效率，还能为医学教育和培训提供有力支持。

在娱乐产业，观众的观影体验将发生革命性变化。观众在观看电影或电视剧时，可以随时了解演员信息、剧情背景、拍摄花絮等相关内容，而不用暂停视频去搜索。AI助手还能根据观众的兴趣偏好，主动提供相关的趣味知识或推荐类似内容。这种沉浸式的互动体验将让娱乐消费变得更加丰富多彩。

新闻媒体和信息传播领域也将迎来重要变革。观众在观看新闻报道时，可以即时询问相关背景信息、数据解释或事件发展脉络。AI助手能够结合实时新闻和历史数据，为观众提供全面深入的信息解读。这种互动式新闻消费方式将帮助公众更好地理解复杂事件和社会问题。

在安防监控领域，这项技术的应用将大大提升监控效率和准确性。安保人员可以通过语音与AI系统交互，快速查询特定时间段的异常事件、人员活动或物品状态。AI能够实时分析监控画面并回答相关询问，这将显著减轻人工监控的工作负担，提高安全防护的智能化水平。

体育赛事直播也是一个充满潜力的应用场景。观众在观看比赛时，可以随时询问球员统计、战术分析、历史交锋记录等信息。AI助手能够结合实时画面和体育数据库，为观众提供专业深入的解说和分析。这种互动式观赛体验将让体育爱好者获得更丰富的知识和更强的参与感。

在工业培训和技能教育方面，这项技术同样具有重要价值。技术工人在观看操作教学视频时，可以随时询问安全注意事项、操作细节或故障排除方法。AI助手能够结合视频内容和专业知识，提供针对性的指导和建议。这种互动式培训方式将大大提高技能学习的效果和安全性。

当然，这些应用的实现还需要克服一些挑战。比如，不同领域的专业知识整合、多语言支持、隐私保护等问题都需要进一步解决。同时，技术的普及也需要考虑成本控制和用户接受度等实际因素。

尽管存在这些挑战，但随着技术的不断进步和成本的逐步降低，我们有理由相信，实时视频AI交互将逐步走入千家万户，成为日常生活中不可或缺的智能助手。这不仅将改变我们获取和处理信息的方式，更将推动人机交互向更自然、更智能的方向发展。

说到底，这项研究真正重要的意义在于它为AI与人类的互动开辟了一个全新的维度。过去，我们与AI的交互主要局限于文字或静态内容，而现在，AI开始能够理解和参与到动态的视频世界中。这种变化就像是从书信交流进化到面对面对话一样，代表了人机交互质的飞跃。研究团队通过RIVER这个评测平台，不仅为当前的AI系统进行了全面体检，也为未来的发展指明了方向。更重要的是，他们提出的技术解决方案已经在实验中显示出了显著效果，让我们看到了AI真正走入日常生活、成为智能伙伴的可能性。

虽然目前这项技术还处于研究阶段，但它展现出的巨大潜力让我们对未来充满期待。也许不久的将来，我们在看电影时遇到疑问，在学习时需要解答，在工作中寻求指导，都能够得到AI助手的即时帮助。这种无处不在、无时不有的智能支持，将让我们的生活变得更加便捷高效，也更加丰富有趣。对于那些希望深入了解这项研究技术细节的读者，可以通过论文编号arXiv:2603.03985v1查找完整的研究报告，其中包含了更多详尽的实验数据和技术实现细节。

Q&A

Q1：RIVER评测基准是什么？

A：RIVER是由中科大等院校联合开发的首个专门评估AI实时视频理解能力的测试平台。它包含超过4000个问题，测试AI在观看视频时能否像人类一样回忆过去、理解现在、预测未来，就像给AI设计了一场"边看边聊"的考试。

Q2：这项技术什么时候能在日常生活中使用？

A：目前这项技术还处于研究阶段，但已经显示出巨大潜力。未来可能应用于教育、医疗、娱乐等多个领域，让观众在看视频时能随时向AI提问并获得即时回答，具体普及时间还需要技术进一步成熟和成本控制。

Q3：AI的视频记忆能力和人类有什么不同？

A：研究发现AI的记忆曲线与人类的艾宾浩斯遗忘曲线存在显著差异。配备专门记忆模块的AI系统表现出比人类更稳定的长期记忆能力，甚至在某些情况下比人类记忆更可靠，但在处理因果关系和事件推理方面仍然不如人类。

来源:https://www.163.com/dy/article/KO5FOE5P0511DTVV.html

上一篇： AI企业全球化：国际创新视角下的金融战略解析

下一篇：香港创新科技及工业局提醒：勿在政府电脑安装OpenClaw