当前位置: 首页
AI
美团开源LongCat实时音视频模型:支持交互,达到SOTA水平

美团开源LongCat实时音视频模型:支持交互,达到SOTA水平

热心网友 时间:2025-11-04
转载

11月3日最新消息,美团于今年9月1日正式发布LongCat-Flash系列模型以来,现已开源LongCat-Flash-Chat和LongCat-Flash-Thinking两大版本,引发了开发者的广泛关注。今天,LongCat-Flash系列迎来了全新成员——LongCat-Flash-Omni。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

据最新发布的资料显示,LongCat-Flash-Omni以该系列高效架构设计(Shortcut-Connected MoE,含零计算专家)为基础,同时创新性地集成了高效多模态感知模块与语音重建模块。即使总参数达到5600亿(激活参数270亿)的庞大规模,该模型依然以低延迟实现了实时音视频交互能力,为开发者的多模态应用场景提供了更高效的技术选择。

美团发布并开源 LongCat-Flash-Omni 模型:支持实时音视频交互,达到 SOTA 水平

美团发布并开源 LongCat-Flash-Omni 模型:支持实时音视频交互,达到 SOTA 水平

综合评估结果表明,LongCat-Flash-Omni在全模态基准测试中达到开源最先进水平(SOTA),同时在文本、图像、视频理解及语音感知与生成等关键单模态任务中,均展现出极强的竞争力。LongCat-Flash-Omni是业界首个实现“全模态覆盖、端到端架构、大参数量高效推理”三位一体的开源大语言模型,并首次在开源范围内实现了全模态能力对闭源模型的对标。该模型凭借创新的架构设计与工程优化,使大参数模型在多模态任务中也能实现毫秒级响应,解决了行业内推理延迟的痛点。

美团发布并开源 LongCat-Flash-Omni 模型:支持实时音视频交互,达到 SOTA 水平

美团发布并开源 LongCat-Flash-Omni 模型:支持实时音视频交互,达到 SOTA 水平

文本能力:LongCat-Flash-Omni延续了该系列卓越的文本基础能力,并在多领域均呈现领先性能。相较于LongCat-Flash系列早期版本,该模型不仅未出现文本能力衰减,反而在部分领域实现了性能提升。这一结果不仅印证了训练策略的有效性,更凸显出全模态模型训练中不同模态间的潜在协同价值。

图像理解:LongCat-Flash-Omni的性能(RealWorldQA 74.8分)与闭源全模态模型Gemini-2.5-Pro相当,且优于开源模型Qwen3-Omni;多图像任务优势尤为显著,核心得益于高质量交织图文、多图像及视频数据集上的训练成果。

音频能力:从自动语音识别(ASR)、文本到语音(TTS)、语音续写等维度进行评估,Instruct Model层面表现突出:ASR在LibriSpeech、AISHELL-1等数据集上优于Gemini-2.5-Pro;语音到文本翻译(S2TT)在CoVost2表现强劲;音频理解在TUT2017、Nonspeech7k等任务达到当前最优;音频到文本对话在OpenAudioBench、VoiceBench表现优异,实时音视频交互评分接近闭源模型,类人性指标优于GPT-4o,实现了从基础能力到实用交互的高效转化。

视频理解:LongCat-Flash-Omni视频到文本任务性能达当前最优,短视频理解大幅优于现有参评模型,长视频理解比肩Gemini-2.5-Pro与Qwen3-VL,这得益于动态帧采样、分层令牌聚合的视频处理策略,及高效骨干网络对长上下文的支持。

跨模态理解:性能优于Gemini-2.5-Flash(非思考模式),比肩Gemini-2.5-Pro(非思考模式);尤其在真实世界音视频理解WorldSense基准测试上,相比其他开源全模态模型展现出显著性能优势,印证其高效的多模态融合能力,是当前综合能力领先的开源全模态模型。

美团发布并开源 LongCat-Flash-Omni 模型:支持实时音视频交互,达到 SOTA 水平

端到端交互:由于目前行业内尚未有成熟的实时多模态交互评估体系,LongCat团队构建了一套专属的端到端评测方案。该方案由定量用户评分(250名用户评分)与定性专家分析(10名专家,200个对话样本)组成。定量结果显示:围绕端到端交互的自然度与流畅度,LongCat-Flash-Omni在开源模型中展现出显著优势——其评分比当前最优开源模型Qwen3-Omni高出0.56分;定性结果显示:LongCat-Flash-Omni在副语言理解、相关性与记忆能力三个维度与顶级模型持平,但在实时性、类人性与准确性三个维度仍存在差距,也将在未来工作中进一步优化。

模型已同步开源:

Hugging Face:

https://huggingface.co/meituan-longcat/LongCat-Flash-Omni

Github:

https://github.com/meituan-longcat/LongCat-Flash-Omni

来源:https://www.ithome.com/0/894/423.htm

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
一篇讲透:豆包、元宝、DeepSeek、Kimi、WorkBuddy,职场里到底怎么分工

一篇讲透:豆包、元宝、DeepSeek、Kimi、WorkBuddy,职场里到底怎么分工

别再把所有 AI 当成一个东西:WorkBuddy 和豆包、元宝、DeepSeek、Kimi,到底该怎么选? 这一年,AI 的进化速度着实叫人眼花缭乱。 大家的关注点,早就从“这工具能写文章吗”跳到了“它能不能帮我做方案、改稿子、整理会议纪要,甚至把任务往前推一步”。 于是,一个新问题浮出水面。 很

时间:2026-04-05 18:33
我用WorkBuddy“克隆“了一个我,从此每句话像我自己说的

我用WorkBuddy“克隆“了一个我,从此每句话像我自己说的

如何使用WorkBuddy深度学习我的说话方式,让每一份文案都自带个人风格 作为一名企业培训师,每年主讲上百场课程是行业常态。无论是线下公开课、线上直播,还是视频号、公众号的内容创作,每天的工作状态不是在授课,就是在准备各种讲稿的路上。早期借助通用AI工具辅助创作,写作效率确实有所提升,但生成的内容

时间:2026-04-05 14:34
英国视障跑者挑战马拉松,将借助智能眼镜“看”到赛道、辨别方向

英国视障跑者挑战马拉松,将借助智能眼镜“看”到赛道、辨别方向

英国视障跑者挑战马拉松,将借助智能眼镜“看”到赛道、辨别方向 最近有一则科技助残的新闻,让人眼前一亮。当地时间4月2日,英国BBC报道称,视障跑者克拉克·雷诺兹正计划借助一项创新技术,参加一场全程马拉松。这项技术的巧妙之处在于,它能让世界另一端有视力的志愿者,实时“看到”雷诺兹眼前的景象,并为他提供

时间:2026-04-05 11:03
彻底卸载 OpenClaw (龙虾) 指南

彻底卸载 OpenClaw (龙虾) 指南

彻底卸载 OpenClaw (龙虾) 指南 想把 OpenClaw(大家常叫它“龙虾”)从你的系统里清理干净?这事儿得讲究个章法,胡乱删除往往治标不治本,残留的服务和文件就像散落在角落的贝壳,时不时硌你一下。接下来,咱们就按一套稳妥的流程,帮你把它请走。 卸载原则 核心原则就一句话:先停服务,再卸工

时间:2026-04-05 10:43
AI 让英国学生“不会思考”,近 6000 名英格兰中学教师表示担忧

AI 让英国学生“不会思考”,近 6000 名英格兰中学教师表示担忧

AI让英国学生“不会思考”?近6000名教师敲响教育警钟 一项来自英国教育界的深度调查,为当前AI技术涌入课堂的热潮带来了冷静思考。据英国《卫报》4月2日报道,英格兰的中学教师们普遍观察到一种现象:随着人工智能在教育中的应用日益广泛,学生的批判性思维能力与深度思考习惯正面临下滑风险。这项由英国全国教

时间:2026-04-05 08:55
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程