数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

Meta新模型性能提升113%，首次实现边看边听多模态学习

AI热点日报时间：2026-02-28

热点解读

新智元报道编辑：LRST【新智元导读】Meta联合多所高校发布首个可规模化自动生成第一视角音视频理解数据的引擎EgoAVU ，让多模态大模型首次真正「听懂世界」。现在最强的多模态大模型，虽然能接收声

新智元报道

编辑：LRST

【新智元导读】Meta携手多所高校发布了首个可规模化自动生成第一视角音视频理解数据的引擎EgoAVU+，让多模态大模型首次真正“听懂世界”。

目前顶尖的多模态大模型，虽能同时接收语音和视频输入，却难以实现真正的“同步理解”。

处理第一视角视频任务时，模型往往会出现各种问题。比如，要么完全忽略音频信息，要么误判声音来源位置，甚至仅凭视觉线索去“猜测”声音。换言之，当前的多模态大模型只是“看”得见，但还没有真正“听”得懂。

这正是当下具身智能面临的一大瓶颈。

Meta研究团队发现，问题的最大瓶颈在于数据，而非模型本身。

当前主流数据集存在三个致命问题：视觉中心化严重、缺乏真实音频语义、没有跨模态关联标注，结果导致模型从未真正学过如何理解声音与视觉之间的关系。

为解决这一难题，Meta提出了首个自动化音视频数据引擎EgoAVU。这是一个全新的思路，能直接自动化生成跨模态数据，相关成果已被CVPR2026接收。

EgoAVU是一个完整的数据生产系统，可以自动理解视频中的声音-视觉关系、自动生成高质量问答与叙述数据、自动筛选最具跨模态信息的视频，最终形成了可规模化扩展的数据流水线。

一次生成百万级训练数据

基于EgoAVU，团队构建了两个重要资源：

EgoAVU-Instruct

包含300万条训练样本，覆盖了五大核心任务：

声源关联（Source–Sound Association， SSA）

问题是：视频里听到的某个声音（比如滋滋声）来自哪里/什么物体？

音视频片段叙述（Audio–Visual Segment Narration， AVSN）

问题是：在某个时间段（如240–250秒），描述周围环境、人物动作，以及能听到的声音。

音视频密集叙述（Audio–Visual Dense Narration， AVDN）

问题是：对整个视频进行更全面、更细节的“看到了什么/听到了什么/做了什么”密集描述。

时序推理（Temporal Reasoning， TR）

问题是：某个动作之前/之后发生了什么，通常是多选或从候选项中选出答案。

音视频幻觉检测（Audio–Visual Hallucination， AVH）

问题是：视频里是否真的存在某个声音/事件，用于检测模型是否存在“虚构”。

EgoAVU-Bench

这是首个专门评测音视频理解能力的基准测试，包含3000条人工验证问题。

性能提升有多夸张？

实验结果显示，在新数据上微调后，基准性能最高提升达113%，其他任务最高提升28%。

研究进一步揭示：当前多模态模型普遍存在严重视觉偏好。

EgoAVU带来的最大启示是：未来AI竞争的关键，可能不再是“模型结构”，而是“数据引擎能力”。

这标志着多模态AI正从“模型驱动”迈向新的技术范式“数据驱动”。

第一视角音视频理解是机器人感知、自动驾驶、AR/VR、可穿戴AI的核心基础能力。

EgoAVU为这些领域提供了关键突破，让多模态大模型首次真正学会“听懂第一视角世界”。

论文一作Meta的实习研究员来自马里兰大学的博士生Ashish Seth，指导老师蔡志鹏是Meta的高级研究员，主要研究方向是优化、感知和多模态生成等通用计算机视觉/机器学习问题。论文曾被评为ECCV18年12篇最佳论文之一，并获得英特尔实验室2024年最佳学者奖。

参考资料：

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：Meta新模型性能提升113%，首次实现边看边听多模态学习要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.163.com/dy/article/KMS07IBU0511ABV6.html

模态视觉大模型 meta

上一篇：海淀放大招：900亿资金与近30条政策，三大科创信号重磅释放

下一篇：下沉市场茶饮爆发：春节档AI赋能与社交场景新变革

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周百度官方出品度加剪辑口播自媒体必备工具 02 / 本周基于AI的智能在线个性化锻炼计划生成工具 Workout Master 03 / 本周Calorielens AI智能实时拍照分析餐点照片卡路里追踪应用 04 / 本周百度旗下首个AI互动式搜索APP简单搜索 05 / 本周QuazaAI AI驱动的智能健身平台提供个性化训练计划

01 / 本月百度官方出品度加剪辑口播自媒体必备工具 02 / 本月基于AI的智能在线个性化锻炼计划生成工具 Workout Master 03 / 本月Calorielens AI智能实时拍照分析餐点照片卡路里追踪应用 04 / 本月百度旗下首个AI互动式搜索APP简单搜索 05 / 本月QuazaAI AI驱动的智能健身平台提供个性化训练计划

热点快看

07-06 20:47百度官方出品度加剪辑口播自媒体必备工具 07-06 20:46基于AI的智能在线个性化锻炼计划生成工具 Workout Master 07-06 20:46Calorielens AI智能实时拍照分析餐点照片卡路里追踪应用 07-06 20:46百度旗下首个AI互动式搜索APP简单搜索 07-06 20:46QuazaAI AI驱动的智能健身平台提供个性化训练计划

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别