Meta新模型性能提升113%,首次实现边看边听多模态学习

新智元报道
编辑:LRST
【新智元导读】Meta携手多所高校发布了首个可规模化自动生成第一视角音视频理解数据的引擎EgoAVU+,让多模态大模型首次真正“听懂世界”。
目前顶尖的多模态大模型,虽能同时接收语音和视频输入,却难以实现真正的“同步理解”。
处理第一视角视频任务时,模型往往会出现各种问题。比如,要么完全忽略音频信息,要么误判声音来源位置,甚至仅凭视觉线索去“猜测”声音。换言之,当前的多模态大模型只是“看”得见,但还没有真正“听”得懂。
这正是当下具身智能面临的一大瓶颈。
Meta研究团队发现,问题的最大瓶颈在于数据,而非模型本身。

当前主流数据集存在三个致命问题:视觉中心化严重、缺乏真实音频语义、没有跨模态关联标注,结果导致模型从未真正学过如何理解声音与视觉之间的关系。
为解决这一难题,Meta提出了首个自动化音视频数据引擎EgoAVU。这是一个全新的思路,能直接自动化生成跨模态数据,相关成果已被CVPR2026接收。


EgoAVU是一个完整的数据生产系统,可以自动理解视频中的声音-视觉关系、自动生成高质量问答与叙述数据、自动筛选最具跨模态信息的视频,最终形成了可规模化扩展的数据流水线。
一次生成百万级训练数据

基于EgoAVU,团队构建了两个重要资源:
EgoAVU-Instruct
包含300万条训练样本,覆盖了五大核心任务:
声源关联(Source–Sound Association, SSA)
问题是:视频里听到的某个声音(比如滋滋声)来自哪里/什么物体?
音视频片段叙述(Audio–Visual Segment Narration, AVSN)
问题是:在某个时间段(如240–250秒),描述周围环境、人物动作,以及能听到的声音。
音视频密集叙述(Audio–Visual Dense Narration, AVDN)
问题是:对整个视频进行更全面、更细节的“看到了什么/听到了什么/做了什么”密集描述。
时序推理(Temporal Reasoning, TR)
问题是:某个动作之前/之后发生了什么,通常是多选或从候选项中选出答案。
音视频幻觉检测(Audio–Visual Hallucination, AVH)
问题是:视频里是否真的存在某个声音/事件,用于检测模型是否存在“虚构”。
EgoAVU-Bench
这是首个专门评测音视频理解能力的基准测试,包含3000条人工验证问题。
性能提升有多夸张?

实验结果显示,在新数据上微调后,基准性能最高提升达113%,其他任务最高提升28%。
研究进一步揭示:当前多模态模型普遍存在严重视觉偏好。
EgoAVU带来的最大启示是:未来AI竞争的关键,可能不再是“模型结构”,而是“数据引擎能力”。
这标志着多模态AI正从“模型驱动”迈向新的技术范式“数据驱动”。
第一视角音视频理解是机器人感知、自动驾驶、AR/VR、可穿戴AI的核心基础能力。
EgoAVU为这些领域提供了关键突破,让多模态大模型首次真正学会“听懂第一视角世界”。

论文一作Meta的实习研究员来自马里兰大学的博士生Ashish Seth,指导老师蔡志鹏是Meta的高级研究员,主要研究方向是优化、感知和多模态生成等通用计算机视觉/机器学习问题。论文曾被评为ECCV18年12篇最佳论文之一,并获得英特尔实验室2024年最佳学者奖。

参考资料:
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
2026北京车展荣威家越07概念车首发 AI赋能家庭出行新方案
在2026北京国际汽车展览会上,上汽荣威正式发布了其全新“家越”序列的首款概念车型——家越07。作为一款定位大五座的智能SUV,它精准聚焦于AI技术深度赋能的家庭出行场景,通过创新的设计语言与深度融合的智能科技,旨在重新定义家用汽车的功能边界与体验标准。根据官方规划,家越07的量产版本将于今年6月正
吉利银河M9黑金智曜版上市 豪华智能大六座SUV驾控体验升级
吉利银河旗下备受瞩目的AI科技大六座旗舰SUV——银河M9黑金智曜版,现已正式上市。新车官方指导价为26 98万元,并推出限时先享价25 98万元,同时附赠价值丰厚的购车权益。作为现款银河M9的进阶版本,这款新车在豪华设计、智能驾驶与驾控性能三大核心维度实现了显著升级,其目标清晰:旨在进一步夯实其在
淘宝天猫上线AI假图识别模型维护商家权益
在电商行业竞争日益激烈的今天,买卖双方的权益平衡始终是平台治理的核心。然而,近年来出现了一种新型的不当牟利手段,令众多商家倍感困扰——部分消费者利用人工智能(AI)技术生成的虚假图片作为所谓“证据”,在申请售后时提出“仅退款”而拒绝退货,企图空手套白狼,导致商家遭受不必要的经济损失。 面对这种利用高
Canva可画免费在线设计工具使用指南
不少朋友都在问,Canva可画这个在线设计工具的免费体验入口到底在哪?其实,它的官方地址一直很稳定。下面,我们就来全面梳理一下这个平台的核心功能与使用体验。 模板资源:覆盖全面,深度优化 首先,它的模板库确实够广。从节日庆典、职场办公到教育课件、社交媒体和电商海报,数十个主题场景下还有上百个细分方向
视觉生成模型对齐新方法TGO无需偏好对仅用标量反馈
新加坡国立大学团队提出TGO方法,无需依赖成对偏好数据,可直接利用单个样本的标量评分优化视觉生成模型。该方法通过估计分数阈值划分伪正负例,并依分数距离加权训练,在图像与视频生成任务中有效提升性能,为利用真实场景标量反馈提供了新途径。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

