当前位置: 首页
科技数码
DeepMind新突破AI视频理解提速35% 长视频分析更高效

DeepMind新突破AI视频理解提速35% 长视频分析更高效

热心网友 时间:2026-05-26
转载


近日,谷歌DeepMind与首尔国立大学联合发布了一项突破性研究,提出了一种名为LiteFrame的全新视频理解框架,旨在解决AI处理长视频内容时面临的核心效率瓶颈。该研究论文已以预印本形式公开(arXiv:2605.17260),为如何让AI高效理解长达数小时的视频内容提供了创新性解决方案。

当前,让AI分析一部两小时的电影,其计算挑战堪比要求人类在一秒内读完一本巨著。主流视频AI模型在处理长序列时,普遍会遭遇“计算墙”的制约。这项研究的核心价值,在于它巧妙地绕过了这堵墙,通过源头优化而非事后补救,重新定义了视频理解的效率边界。

一、长视频AI的“计算墙”瓶颈

要理解这一瓶颈,需先了解现有视频AI的通用工作流程。通常分为两步:首先,由“视觉编码器”(AI的“眼睛”)逐帧扫描视频,将图像转换为数字特征(视觉令牌);其次,将这些海量特征输入大型语言模型(AI的“大脑”)进行理解与推理。

问题根源在于视频帧数的爆炸性增长。帧数越多,生成的视觉令牌数量越庞大,研究团队称之为“计算量的爆炸”。更棘手的是,语言模型处理序列的复杂度通常是平方级的,导致现有系统(如研究中作为基准的InternVL3-8B)在实际中最多只能流畅处理约64帧,超出后性能会急剧下降甚至崩溃。

二、“事后削减”方法的局限与瓶颈转移

面对此瓶颈,传统思路是“事后削减”:先让视觉编码器完整处理所有帧,生成大量令牌,再通过算法压缩或筛选,减少输入语言模型的信息量。

这种方法虽减轻了语言模型的负担,但谷歌DeepMind团队揭示了一个关键问题:瓶颈并未消失,而是转移了。无论事后如何压缩,视觉编码器逐帧处理的“苦力活”耗时并未减少。当试图增加处理帧数以提升效果时,视觉编码器的耗时呈线性增长,成为新的性能瓶颈。实验表明,在高压缩率下,视觉编码时间最终主导了整体延迟,形成了“头疼医脚,脚又疼”的局面。

三、核心前提验证:更多帧数带来更好效果

在寻求新方案前,研究团队首先系统验证了一个根本性问题:增加输入帧数是否真能提升AI的视频理解能力?

答案是肯定的。在Video-MME、MLVU和LongVideoBench等多个权威长视频评测基准上,模型的理解准确率随输入帧数增加呈现明显的对数增长趋势。这意味着,在固定计算预算内,若能处理更多帧,性能必然提升。这为LiteFrame的设计哲学提供了坚实依据:追求在单位时间内处理更多帧,而非单纯压缩已有信息。

四、高效信息压缩的关键:加权平均池化

在推出完整方案前,团队探索了最优的信息压缩方法,即“加权平均池化”。其原理是:将视频在时空维度分块,并根据每个块内信息的重要性(由图像全局特征决定)进行差异化保留,重要区域保留更多细节。

对比实验证明,在16倍压缩率下,加权平均池化的平均准确率(62.0%)显著优于随机抽帧、均匀采样及其他复杂算法。更重要的是,研究验证了一个关键假设:用信息压缩换取帧数增加是高效的——处理更多帧的压缩信息,其效果优于处理较少帧的原始信息。然而,该方法仍是“事后处理”,无法解决视觉编码器自身的效率问题。

五、LiteFrame架构:重塑“视觉编码器”

LiteFrame的核心创新在于从根本上重塑了视觉编码器。其设计理念是:直接训练一个轻量级、高效率的编码器,使其能原生输出高度压缩的精华特征,而非先产生冗余信息再压缩。

具体而言,LiteFrame是一个参数量仅约8700万的全新视觉编码器,不到基准模型(InternViT-300M)的三分之一。其架构专为视频压缩优化,主要包含两大创新:

1. 深度可分离一维时间卷积:此模块高效捕捉帧间时序关联。它能智能合并相邻帧中的重复信息(如静态背景),极大减少冗余计算。其延迟极低(实验仅175毫秒),远优于传统的注意力机制。

2. 渐进式压缩:在编码器网络中间层(如第4、8层)插入步进卷积,逐步降低特征图分辨率,从而在后期处理中自然减少数据量,最终将每帧图像高效压缩至仅16个视觉令牌。

六、模型训练秘诀:压缩令牌蒸馏

如何让轻量级的LiteFrame输出高质量的精简特征?研究团队提出了“压缩令牌蒸馏”训练法。

传统知识蒸馏要求学生模型模仿教师模型的完整输出,但这里存在输出维度不匹配的矛盾(教师输出256令牌,学生仅输出16令牌)。CTD的巧妙之处在于,它将加权平均池化这一压缩过程内化为训练目标。具体步骤为:先用大型教师模型处理视频得到丰富特征,再用加权平均池化将其压缩为16个精华令牌;随后,直接让LiteFrame学习预测这16个精华令牌。

通过这种方式,LiteFrame在训练中直接掌握了“判断信息重要性”的能力,并将其固化于网络参数中。推理时,它便能直接输出高质量压缩特征,无需任何额外计算开销。实验表明,CTD策略显著优于让学生模型先压缩再尝试还原的“重构令牌蒸馏”方法。

七、系统适配:语言模型微调

训练好LiteFrame后,还需让下游的语言模型适应其新的输出格式(16令牌 vs. 原始的256令牌)。为此,团队进行了“语言模型适配”。

他们使用视频-文本配对数据,采用高效的LoRA技术对语言模型进行轻量级微调,仅调整极少量参数,使其适应新的、更精简的视觉输入以及更长的视频序列。这个过程非常高效,在8块H100 GPU上仅需数小时。有趣的是,小幅度的适配(低秩设置)效果最佳,表明模型只需轻微调整即可良好兼容。

八、性能表现:效率与准确率的双重突破

整合所有组件后,LiteFrame在效率与性能上实现了显著提升:

与基准模型(处理16帧)相比,LiteFrame在处理8倍帧数(128帧)时,端到端延迟降低32.5%,且平均准确率仍有提升。处理256帧(16倍处理量)时,延迟降低34.6%,准确率保持微幅领先。更极端的案例是,LiteFrame处理64帧的速度,比基准模型处理8帧还要快28%,且准确率显著更高。

延迟分析揭示了本质优势:在处理64帧时,LiteFrame的视觉编码耗时仅54.8毫秒,而采用“事后压缩”的FastVID方法则需161.7毫秒,差距近3倍。与另一种方案AutoGaze相比,在256帧条件下,LiteFrame的总延迟(532.3毫秒)不到前者(超过6秒)的十分之一,准确率反而更高。

此外,LiteFrame在短视频理解任务上也能显著降低延迟,并在高分辨率视频理解上展现了优秀的零样本泛化能力。

九、消融实验:验证每个组件的贡献

通过系统的消融研究,团队量化了每个技术组件的贡献:

仅进行传统蒸馏而不压缩令牌,效果会下降。加入压缩架构但使用低效的注意力机制,效果接近基准。换用高效的深度可分离时间卷积,延迟降低,准确率提升。最关键的是引入以加权平均池化为目标的CTD训练,移除它会导致准确率暴跌。最后,加上语言模型适配,达到最佳性能。最终,LiteFrame以更低的延迟和更多的处理帧数,全面超越了原始基准。

十、研究意义、局限与未来方向

该研究也指出了当前工作的几点局限:例如,训练数据可纳入更多超长视频以进一步提升能力;在纯静态图像任务上的性能有待评估;训练更小规模编码器时存在稳定性挑战等。

这项研究最重要的贡献在于思维范式的转变:与其在信息生成后费力压缩,不如从源头训练一个能高效产出精华信息的系统。这种“内化压缩”的理念,为视频AI乃至其他模态的效率优化开辟了新道路。

在实际应用层面,这意味着未来的AI视频分析系统将能以更低的成本和更快的速度处理更长的内容,对安防监控、内容审核、在线教育、视频摘要等长视频分析场景具有直接的推动意义。

Q&A

Q1:LiteFrame是什么,它和普通视频AI有什么不同?

A:LiteFrame是一个专为高效长视频理解而设计的轻量级视觉编码器。它与普通视频AI的根本区别在于处理逻辑:普通AI采用“先完整扫描,后压缩信息”的两段式流程;而LiteFrame采用“源头压缩”,在编码初期就直接生成高度精炼的特征,从而同时大幅提升了视觉编码和后续语言理解的整体效率。

Q2:压缩令牌蒸馏(CTD)是怎么训练LiteFrame的?

A:CTD是一种目标导向的蒸馏方法。它首先利用强大的教师模型处理视频,得到丰富的中间特征表示;然后,使用智能的加权平均池化方法,将这些特征压缩成一个精华版本;最后,直接让轻量化的学生模型(LiteFrame)学习预测这个精华版本。这使得学生模型内化了提取关键信息的能力,推理时无需额外计算。

Q3:LiteFrame比普通的事后削减方法快多少,准确率有没有损失?

A:实验数据表明,LiteFrame在速度和准确率上实现了双赢。例如,在处理256帧视频时,LiteFrame比先进的“事后削减”方法快约33%,比原始基准模型快约35%。关键在于,它在速度大幅提升的同时,处理了更多的视频帧数,并且准确率没有损失,在多数任务上还有微幅提升,真正突破了效率与性能的权衡。

来源:https://www.163.com/dy/article/KTQAI5350511DTVV.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
科创50指数大涨近6%创历史新高

科创50指数大涨近6%创历史新高

科创50指数盘中涨近6%创新高,市场交投情绪热烈。半导体龙头及设备公司股价涨幅显著,显示资金高度聚焦硬核科技与国产替代主线。此轮上涨为具备关键技术标的的结构性行情,反映在成长资产稀缺背景下,市场风险偏好向科创板龙头聚集。短期波动或加大,但龙头标杆效应及带动作用值得。

时间:2026-05-26 13:17
日本超音速发动机突破5马赫速度媲美迪迦奥特曼

日本超音速发动机突破5马赫速度媲美迪迦奥特曼

日本成功完成五马赫级冲音速发动机地面燃烧试验,巡航速度可超6000公里 小时。该发动机采用无涡轮设计,需飞行器先达超音速启动。试验模拟25公里高空环境,机体耐温超1000摄氏度,依靠先进热防护系统保障安全。计划下一步进行高空实测,目标在2040年代实现超音速商业载人飞行,大幅缩短长途航程。

时间:2026-05-26 13:17
英伟达转型CPU市场挑战英特尔霸主地位

英伟达转型CPU市场挑战英特尔霸主地位

英伟达正全力进军CPU市场,目标成为全球顶级供应商。其VeraCPU采用自研架构,性能与能效领先,专为应对智能体AI的串行处理需求设计。该产品已开始向多家头部云服务商和AI企业交付,标志着公司从GPU霸主正式切入由英特尔和AMD主导的CPU核心战场。

时间:2026-05-26 13:17
黄仁勋预测全球AI基础设施年投资将达3至4万亿美元

黄仁勋预测全球AI基础设施年投资将达3至4万亿美元

全球AI基础设施年投资预计将达3至4万亿美元,远超预期。云服务支出至2028年约1 03万亿美元,英伟达预测2030年将大幅攀升。谷歌云、Azure和AWS的快速增长印证了AI算力需求的持续增强。AI正深度融入各行业,成为核心生产力并推动经济价值创造。但市场亦有审慎观点:要实现可观回报,行业需创造远超当前云服务市场。

时间:2026-05-26 13:17
苹果MacBook Ultra配置曝光或将替代MacBook Pro

苹果MacBook Ultra配置曝光或将替代MacBook Pro

传闻苹果将推出全新旗舰MacBookUltra,替代常规MacBookPro更新。其核心亮点包括采用三星供应的混合式OLED屏幕,提升亮度、对比度与能效;可能首次支持触控操作,打破Mac长期无触屏的传统。机身设计将更轻薄,并可能舍弃刘海屏改用灵动岛挖孔形态。性能方面预计搭载基于台积电2nm工艺的M6Pro Max芯片,实现性能与能效的飞跃。

时间:2026-05-26 13:17
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程