当前位置: 首页
科技数码
上海AI实验室FrameThinker:用AI高效破解长视频侦查难题

上海AI实验室FrameThinker:用AI高效破解长视频侦查难题

热心网友 时间:2025-10-28
转载

上海AI实验室携手南京大学、香港中文大学、上海交通大学及北京大学的科研团队,在长视频理解领域获得突破性进展。他们提出的FrameThinker框架借鉴人类侦探的推理方式,从根本上改变了传统AI处理长视频的模式。这项研究成果已在arXiv预印本平台发布,编号为2509.24304v2,为智能视频分析开辟了全新路径。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

传统AI系统处理长视频时,往往采用“撒网式采样”策略,即均匀提取视频帧进行逐帧分析。这种方法好比将整部电影的每一帧画面都打印出来检查,不仅耗费大量计算资源,还容易在海量信息中遗漏关键细节。研究团队发现,现有视觉语言模型存在两大局限:其一是不具备信息价值判断能力,对所有画面一视同仁;其二是推理过程固化,一旦开始分析就无法根据新发现调整策略。

FrameThinker的创新之处在于引入“多轮互动推理”机制。该系统首先快速浏览视频建立整体认知,随后像专业侦探般制定调查计划:通过时间定位技能锁定可疑时段,运用区间探查技能深入分析特定片段,最终整合所有发现得出结论。这种动态迭代过程使系统能够根据中间结果调整调查方向,显著提升分析效率。

在医疗领域,该技术可帮助医生从数小时手术录像中快速定位关键操作;安防监控中,能迅速从全天候录像中发现异常事件;教育场景下,则可自动提取课程录像中的重点知识。研究团队通过具体案例展示,当被问及“视频中小女孩使用何种工具寻找目标”时,系统先整体浏览发现关键角色,再聚焦特定帧区间观察,最终确认面具为重要道具,整个过程展现出类人推理能力。

训练阶段采用两阶段递进式方法。首阶段通过2392个精心设计的案例,教授系统基础推理规范,包括直接回答、单次搜查、时间定位等五种模式。第二阶段强化学习阶段使用28000个复杂案例,引入“条件奖励”机制:只有当系统最终答案正确且推理过程合理时,才会对有效搜查行为给予奖励。这种设计避免了传统训练中AI为获取奖励而执行无意义操作的问题。

为确保推理逻辑严密性,研究团队开发了认知一致性验证模块。该模块通过三项检查保障系统可靠性:冗余检查防止重复无效操作,逻辑流程检查确保推理连贯性,忠实度检查核对思考与行动的一致性。实验数据显示,在Video-Holmes基准测试中,FrameThinker准确率达56.1%,较之前最佳成绩提升显著,且仅需观看10.2帧即可得出结论,效率提升超3倍。

技术实现层面,系统基于Qwen2.5-VL-7B模型构建,配备70亿参数。训练数据由Gemini-2.5-Pro模型生成,每个示例均经过严格质量把控。针对不同长度视频,系统自适应调整搜查策略:300秒以内视频每次获取8帧,更长视频则获取12帧。强化学习阶段采用的“组相对策略优化”算法,通过比较多条推理路径学习最优策略。

在LongVideo-Reason测试中,FrameThinker准确率达76.1%,超越需观看512帧的竞争对手,而自身仅需20.6帧。其他基准测试同样表现优异:LongVideoBench准确率52.9%(21.1帧),MLVU准确率59.1%(23.2帧),VideoMME-Long准确率47.6%(24.1帧),LVBench准确率36.6%(23.9帧)。在所有测试中,系统计算资源消耗减少25%-36%,准确率平均提升10.4%。

奖励机制设计是技术突破的关键。研究团队经过多轮试验发现,单纯格式奖励会导致AI敷衍了事,无条件行动奖励则引发重复无效操作,多轮奖励又造成推理质量下降。最终确定的“条件行动奖励”方案,对时间定位技能给予更高权重,因其提供的信息更精准可靠。这种设计哲学强调:AI学习的核心应是高效解决问题,而非执行更多动作。

该技术对日常生活的影响正在显现。智能视频搜索引擎可快速定位海量视频中的关键片段,在线教育系统能自动提取课程精华,医疗诊断工具可精准定位医学影像中的病灶。FrameThinker展现的主动探索能力,标志着AI从信息处理器向智能推理者的转变,为人机协作模式带来新的思考维度。

来源:https://www.itbear.com.cn/html/2025-10/1000569.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
vivo X300 Ultra 手机维修备件价格公布:屏幕优惠价 1320 元,主板 3300 元起

vivo X300 Ultra 手机维修备件价格公布:屏幕优惠价 1320 元,主板 3300 元起

vivo X300 Ultra维修价格出炉:看懂这份“后期养护”清单 vivo X300 Ultra昨天正式开卖,作为一款搭载了第五代骁龙8至尊版和蔡司大师镜头群的旗舰,6999元起的售价彰显了它的定位。新机到手,除了性能与影像,它的“后期养护”成本也成了不少用户关心的重点。这不,官方维修备件价格已

时间:2026-04-06 22:23
玄派玄机 16 2026 笔记本电脑上架:AMD 锐龙 AI Max+ 395,128GB + 2TB

玄派玄机 16 2026 笔记本电脑上架:AMD 锐龙 AI Max+ 395,128GB + 2TB

玄派玄机 16 2026 笔记本电脑上架:AMD 锐龙 AI Max+ 395,128GB + 2TB 来了,一款瞄准专业创作和重度计算场景的移动工作站新鲜出炉。4月6日消息,玄派旗下的Metaphyuni系列新品——玄机16 2026笔记本电脑已经正式上架。其核心配置相当惹眼,直接搭载了AMD顶级

时间:2026-04-06 22:02
内存疯涨三星赚翻了!Q1利润暴涨600%以上 还得继续涨

内存疯涨三星赚翻了!Q1利润暴涨600%以上 还得继续涨

存储芯片价格持续上涨,行业格局迎来深刻调整 近期存储芯片市场的普遍涨价,给众多下游电子厂商带来了显著的成本压力。与此同时,智能手机、个人电脑等终端产品全年出货量面临下滑,已成为业界共识。然而,市场格局往往是动态平衡的,对于三星电子这样的半导体巨头而言,当前的市场环境可谓机遇难得——公司第一季度盈利表

时间:2026-04-06 21:55
Meta 为雷朋 Display 智能眼镜推出第二个重大更新:新增营养追踪、聊天消息摘要、屏幕录制功能...

Meta 为雷朋 Display 智能眼镜推出第二个重大更新:新增营养追踪、聊天消息摘要、屏幕录制功能...

Meta 为雷朋智能眼镜推出第二代重要升级:新增营养追踪、消息摘要与高清屏幕录制功能 Meta 近日向旗下与雷朋联名研发的智能眼镜——Ray-Ban Meta 正式推送了第二次重大软件更新。此次升级并非无关痛痒的小修小补,而是新增了多项实用功能,例如基于AI视觉的实时营养分析、WhatsApp聊天智

时间:2026-04-06 21:53
OPPO A6k 手机上市:天玑 6300 + LCD 直屏 + 7000mAh 电池,定价 1999 元起

OPPO A6k 手机上市:天玑 6300 + LCD 直屏 + 7000mAh 电池,定价 1999 元起

OPPO A6k手机重磅发布:天玑6300处理器、高清LCD直屏、7000mAh超大电池,售价仅1999元起 OPPO旗下广受欢迎的A系列再添实力新机。近日,备受期待的OPPO A6k正式上市发售。这款新品搭载了备受好评的天玑6300八核处理器,并配备了一块容量高达7000mAh的耐用长寿电池,成为

时间:2026-04-06 21:45
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程