中科院开源Llama-Omni挑战GPT-4o实时语音

AI热点日报时间：2026-05-30

热点解读

中科院提出开源语音交互模型LLaMA-Omni，采用Whisper编码器、MLP适配器、Llama-3 1-8B-Instruct和非自回归Transformer解码器，两阶段训练于4张GPU共65小时。在语音指令跟随、生成质量与对齐指标上超越此前开源方案，端到端延迟226毫秒，低于GPT-4o的320毫秒，验证了开源低延迟语音交互的可行性。

先说一个核心判断：在实时语音交互这件事上，GPT-4o确实让整个行业眼前一亮，但闭源模型的“黑盒”属性也注定了它不能成为通用解决方案。现在，中科院团队出手了——他们提出的LLaMA-Omni，直接给开源阵营补上了这块关键拼图。

中科院提出GPT-4o实时语音交互的开源对手：Llama-Omni

_{论文：LLaMA-Omni: Seamless Speech Interaction with Large Language Models
地址：https://arxiv.org/pdf/2409.06666}

研究背景

传统的LLM交互方式——先把用户的语音转成文本，LLM输出文本，再转成语音——这个流程虽然成熟，但弊端也很明显：中间环节多、延迟高、信息损耗大。尤其在那些需要快速反馈的场景中（比如实时对话助手、语音控制），这种“文本中转”模式会明显拉低用户体验。

那么，能不能直接走语音到语音的路径？问题在于，开源LLM生态里，这条路一直走不通。现有的方案要么需要海量数据和算力去训练专门模型（比如SpeechGPT、AudioPaLM），要么只能在理解层面做文章，生成的语音质量无法保障。

研究方法

LLaMA-Omni的思路其实很务实：既然要把语音走得通，那就把整个链条拆成四个模块，每个模块用最成熟的方案去搭。具体来说：

语音编码器：直接拿Whisper-large-v3的编码器来干活，主要任务是从原始语音指令中提取有效的特征表示。这个公式里，H就是一段长度为T的语音表示序列。
语音适配器：编码器输出的序列太长了，需要做一步降采样。这里用了个简单的两层感知器（MLP），把5倍降采样后的特征对齐到LLM可以理解的维度。
大型语言模型（LLM）：主干用的是Llama-3.1-8B-Instruct，这是一个经过充分微调的8B参数模型，指令跟随能力已经相当扎实。语音表示在这一层被整合进模型原本的输入空间。
语音解码器：这一块是非自回归的Transformer，结合CTC（连接时序分类）来预测离散单元序列。简单说，就是LLM输出的文本信息被快速映射回语音空间，省掉了逐帧生成的耗时。

实验设计

有了模型架构，还得有数据来训练。团队自己构建了一个InstructS2S-200K的数据集，包含20万条语音指令和对应的语音响应。怎么做呢？先把现有的文本指令数据重写一遍，然后通过语音合成技术转成语音对。这种做法的好处很明显——避免了从头收集数据的高昂成本。

模型配置上，编码器用Whisper-large-v3，LLM用Llama-3.1-8B-Instruct，适配器做5倍降采样，解码器只用了2层Transformer。训练策略是两阶段：先训练适配器和LLM，让模型学会“听语音并理解”，再训练语音解码器，让它学会“理解后说出来”。整个训练在4张GPU上，耗时大约65个小时。

结果与分析

评价一个语音交互模型，无非看三件事：内容对不对、语音好不好、以及快不快。

ChatGPT评分：在S2TIF（语音到文本指令跟随）和S2SIF（语音到语音指令跟随）两个任务上，LLaMA-Omni的内容评分和风格评分都超过了之前的主流模型。前者风格评分3.81，后者3.12——这个分数放在开源模型里，已经相当能打。
语音-文本对齐：团队用ASR-WER（词错误率）和ASR-CER（字符错误率）来衡量生成语音和原始文本之间的一致性。LLaMA-Omni在这两个指标上都是最低的，分别为7.59和41.40。这个数据说明，模型生成的语音并不是“随便说一句”，而是和底层文本高度对齐的。
语音质量：用UTMOS评分来评估语音的自然度。随着语音解码过程中单位块大小的增加，语音的自然度也会显著提升——这一点在技术实现上其实很关键，意味着可以灵活调节质量与延迟的平衡。
响应延迟：当设置为10时，端到端响应延迟低至226毫秒。对比一下，GPT-4o的平均音频延迟是320毫秒。换句话说，LLaMA-Omni不仅追上了商用闭源方案，甚至做到了更快。
解码时间：在S2TIF和S2SIF任务上，平均解码时间分别为1.49秒和1.92秒。这个速度比当前同类型的开源方案快了一个量级。

总体结论

LLaMA-Omni的意义在于证明了：在开源生态里打造一个低延迟、高质量的语音交互模型，是完全可行的。它没有依赖额外的预训练或大规模数据采集，而是通过对现有成熟模块的精妙组合与两阶段训练策略，实现了与GPT-4o同级别甚至更优的性能。

值得注意的一点：训练成本并不高，65小时的GPU时间，换来的是一整套可以直接跑在最新Llama基座模型上的语音交互能力。这意味着后续的版本迭代速度会非常快——只要LLM基座有更新，LLaMA-Omni就能快速跟上来。

当然，目前生成的语音在表达力和实时交互的细腻程度上还有提升空间。但方向已经很清晰了：未来两年，实时语音交互一定会成为LLM落地的主要界面之一。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：中科院开源Llama-Omni挑战GPT-4o实时语音要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/OpenSourceLLM/2024091359270.html

ai 人工智能

上一篇：前OpenAI研究科学家开源提示工程库ell重新定义提示工程

下一篇：用Gemini写品牌故事提示词如何让AI先追问再生成

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周面壁智能CTO谈端侧AI：从打字机到大模型的进化突围 02 / 本周印度IT巨头HCL Tech投350亿卢比建50MW AI数据中心 03 / 本周小米具身智能机器人新工站双侧螺母上件成功率达98% 04 / 本周DeepSeek梁文锋身价360亿美元成AI新首富 05 / 本周DeepSeek获74亿美元融资，梁文锋身家涨至360亿

01 / 本月面壁智能CTO谈端侧AI：从打字机到大模型的进化突围 02 / 本月印度IT巨头HCL Tech投350亿卢比建50MW AI数据中心 03 / 本月小米具身智能机器人新工站双侧螺母上件成功率达98% 04 / 本月DeepSeek梁文锋身价360亿美元成AI新首富 05 / 本月DeepSeek获74亿美元融资，梁文锋身家涨至360亿

热点快看

07-14 19:48面壁智能CTO谈端侧AI：从打字机到大模型的进化突围 07-14 19:48印度IT巨头HCL Tech投350亿卢比建50MW AI数据中心 07-14 19:48小米具身智能机器人新工站双侧螺母上件成功率达98% 07-14 19:48DeepSeek梁文锋身价360亿美元成AI新首富 07-14 19:48DeepSeek获74亿美元融资，梁文锋身家涨至360亿

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别