美团开源LongCat实时音视频模型：支持交互，达到SOTA水平

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

美团开源LongCat实时音视频模型：支持交互，达到SOTA水平

热心网友时间：2025-11-04

转载

11月3日最新消息，美团于今年9月1日正式发布LongCat-Flash系列模型以来，现已开源LongCat-Flash-Chat和LongCat-Flash-Thinking两大版本，引发了开发者的广泛关注。今天，LongCat-Flash系列迎来了全新成员——LongCat-Flash-Omni。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

据最新发布的资料显示，LongCat-Flash-Omni以该系列高效架构设计（Shortcut-Connected MoE，含零计算专家）为基础，同时创新性地集成了高效多模态感知模块与语音重建模块。即使总参数达到5600亿（激活参数270亿）的庞大规模，该模型依然以低延迟实现了实时音视频交互能力，为开发者的多模态应用场景提供了更高效的技术选择。

美团发布并开源 LongCat-Flash-Omni 模型：支持实时音视频交互，达到 SOTA 水平

综合评估结果表明，LongCat-Flash-Omni在全模态基准测试中达到开源最先进水平（SOTA），同时在文本、图像、视频理解及语音感知与生成等关键单模态任务中，均展现出极强的竞争力。LongCat-Flash-Omni是业界首个实现“全模态覆盖、端到端架构、大参数量高效推理”三位一体的开源大语言模型，并首次在开源范围内实现了全模态能力对闭源模型的对标。该模型凭借创新的架构设计与工程优化，使大参数模型在多模态任务中也能实现毫秒级响应，解决了行业内推理延迟的痛点。

美团发布并开源 LongCat-Flash-Omni 模型：支持实时音视频交互，达到 SOTA 水平

文本能力：LongCat-Flash-Omni延续了该系列卓越的文本基础能力，并在多领域均呈现领先性能。相较于LongCat-Flash系列早期版本，该模型不仅未出现文本能力衰减，反而在部分领域实现了性能提升。这一结果不仅印证了训练策略的有效性，更凸显出全模态模型训练中不同模态间的潜在协同价值。
图像理解：LongCat-Flash-Omni的性能（RealWorldQA 74.8分）与闭源全模态模型Gemini-2.5-Pro相当，且优于开源模型Qwen3-Omni；多图像任务优势尤为显著，核心得益于高质量交织图文、多图像及视频数据集上的训练成果。
音频能力：从自动语音识别（ASR）、文本到语音（TTS）、语音续写等维度进行评估，Instruct Model层面表现突出：ASR在LibriSpeech、AISHELL-1等数据集上优于Gemini-2.5-Pro；语音到文本翻译（S2TT）在CoVost2表现强劲；音频理解在TUT2017、Nonspeech7k等任务达到当前最优；音频到文本对话在OpenAudioBench、VoiceBench表现优异，实时音视频交互评分接近闭源模型，类人性指标优于GPT-4o，实现了从基础能力到实用交互的高效转化。
视频理解：LongCat-Flash-Omni视频到文本任务性能达当前最优，短视频理解大幅优于现有参评模型，长视频理解比肩Gemini-2.5-Pro与Qwen3-VL，这得益于动态帧采样、分层令牌聚合的视频处理策略，及高效骨干网络对长上下文的支持。
跨模态理解：性能优于Gemini-2.5-Flash（非思考模式），比肩Gemini-2.5-Pro（非思考模式）；尤其在真实世界音视频理解WorldSense基准测试上，相比其他开源全模态模型展现出显著性能优势，印证其高效的多模态融合能力，是当前综合能力领先的开源全模态模型。
端到端交互：由于目前行业内尚未有成熟的实时多模态交互评估体系，LongCat团队构建了一套专属的端到端评测方案。该方案由定量用户评分（250名用户评分）与定性专家分析（10名专家，200个对话样本）组成。定量结果显示：围绕端到端交互的自然度与流畅度，LongCat-Flash-Omni在开源模型中展现出显著优势——其评分比当前最优开源模型Qwen3-Omni高出0.56分；定性结果显示：LongCat-Flash-Omni在副语言理解、相关性与记忆能力三个维度与顶级模型持平，但在实时性、类人性与准确性三个维度仍存在差距，也将在未来工作中进一步优化。