Meta新模型性能提升113%,首次实现边看边听多模态学习

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
新智元报道
编辑:LRST
【新智元导读】Meta携手多所高校发布了首个可规模化自动生成第一视角音视频理解数据的引擎EgoAVU+,让多模态大模型首次真正“听懂世界”。
目前顶尖的多模态大模型,虽能同时接收语音和视频输入,却难以实现真正的“同步理解”。
处理第一视角视频任务时,模型往往会出现各种问题。比如,要么完全忽略音频信息,要么误判声音来源位置,甚至仅凭视觉线索去“猜测”声音。换言之,当前的多模态大模型只是“看”得见,但还没有真正“听”得懂。
这正是当下具身智能面临的一大瓶颈。
Meta研究团队发现,问题的最大瓶颈在于数据,而非模型本身。

当前主流数据集存在三个致命问题:视觉中心化严重、缺乏真实音频语义、没有跨模态关联标注,结果导致模型从未真正学过如何理解声音与视觉之间的关系。
为解决这一难题,Meta提出了首个自动化音视频数据引擎EgoAVU。这是一个全新的思路,能直接自动化生成跨模态数据,相关成果已被CVPR2026接收。


EgoAVU是一个完整的数据生产系统,可以自动理解视频中的声音-视觉关系、自动生成高质量问答与叙述数据、自动筛选最具跨模态信息的视频,最终形成了可规模化扩展的数据流水线。
一次生成百万级训练数据

基于EgoAVU,团队构建了两个重要资源:
EgoAVU-Instruct
包含300万条训练样本,覆盖了五大核心任务:
声源关联(Source–Sound Association, SSA)
问题是:视频里听到的某个声音(比如滋滋声)来自哪里/什么物体?
音视频片段叙述(Audio–Visual Segment Narration, AVSN)
问题是:在某个时间段(如240–250秒),描述周围环境、人物动作,以及能听到的声音。
音视频密集叙述(Audio–Visual Dense Narration, AVDN)
问题是:对整个视频进行更全面、更细节的“看到了什么/听到了什么/做了什么”密集描述。
时序推理(Temporal Reasoning, TR)
问题是:某个动作之前/之后发生了什么,通常是多选或从候选项中选出答案。
音视频幻觉检测(Audio–Visual Hallucination, AVH)
问题是:视频里是否真的存在某个声音/事件,用于检测模型是否存在“虚构”。
EgoAVU-Bench
这是首个专门评测音视频理解能力的基准测试,包含3000条人工验证问题。
性能提升有多夸张?

实验结果显示,在新数据上微调后,基准性能最高提升达113%,其他任务最高提升28%。
研究进一步揭示:当前多模态模型普遍存在严重视觉偏好。
EgoAVU带来的最大启示是:未来AI竞争的关键,可能不再是“模型结构”,而是“数据引擎能力”。
这标志着多模态AI正从“模型驱动”迈向新的技术范式“数据驱动”。
第一视角音视频理解是机器人感知、自动驾驶、AR/VR、可穿戴AI的核心基础能力。
EgoAVU为这些领域提供了关键突破,让多模态大模型首次真正学会“听懂第一视角世界”。

论文一作Meta的实习研究员来自马里兰大学的博士生Ashish Seth,指导老师蔡志鹏是Meta的高级研究员,主要研究方向是优化、感知和多模态生成等通用计算机视觉/机器学习问题。论文曾被评为ECCV18年12篇最佳论文之一,并获得英特尔实验室2024年最佳学者奖。

参考资料:
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
红果短剧用AI偷脸引争议,素人被侵权如何维权
鞭牛士3月31日消息,话题“AI短剧 偷脸”登上热搜。热搜起源为,有网友在社交网络平台发文称,自己此前拍摄的照片被红果短剧旗下作品《桃花簪》未经授权擅自使用,并通过AI技术进行了内容生成。据该网友描
线下机器人真机PK:这届黑客松玩法揭秘
梦瑶 发自 凹非寺量子位 | 公众号 QbitAI机器人Demo大家都见过,但具身智能真机同台PK、当场对线,谁看了不得瞪大眼?(震惊 jpg)这场超燃的具身模型真机对决比赛,就发生在这两天在深圳举
百度入局AI赛道:2024年11家领军企业最新盘点
智东西作者 程茜编辑 心缘智东西3月31日消息,昨日,中国联通发布2026年中国联通山东济南市行业客户智算一体机服务项目中标候选人公示,百度以2 9亿元中标。该项目于3月9日发布招标文件,采购内容包
京东直播新动作:刚需复杂指令与自由态数字人如何升级
编辑|泽南刚刚落幕的 2026 科技界「春晚」GTC 大会上,一个全行业的共识已经形成:AI 正在进入智能体(Agent)时代。然而,当各大厂商都在疯狂入局智能体时,一个尴尬的现实却摆在面前:这些聪
玻色量子完成10亿元B轮融资,刷新行业融资纪录
2026年3月31日,“十五五”规划专用量子计算机赛道唯一代表企业——北京玻色量子科技有限公司(以下简称“玻色量子”)完成10亿元B轮融资。本轮融资由北京金控、工银资本、朝阳顺禧、招银国际、深投控和
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

