中科院开源Llama-Omni挑战GPT-4o实时语音
中科院提出开源语音交互模型LLaMA-Omni,采用Whisper编码器、MLP适配器、Llama-3 1-8B-Instruct和非自回归Transformer解码器,两阶段训练于4张GPU共65小时。在语音指令跟随、生成质量与对齐指标上超越此前开源方案,端到端延迟226毫秒,低于GPT-4o的320毫秒,验证了开源低延迟语音交互的可行性。
先说一个核心判断:在实时语音交互这件事上,GPT-4o确实让整个行业眼前一亮,但闭源模型的“黑盒”属性也注定了它不能成为通用解决方案。现在,中科院团队出手了——他们提出的LLaMA-Omni,直接给开源阵营补上了这块关键拼图。

论文:LLaMA-Omni: Seamless Speech Interaction with Large Language Models
地址:https://arxiv.org/pdf/2409.06666
研究背景
传统的LLM交互方式——先把用户的语音转成文本,LLM输出文本,再转成语音——这个流程虽然成熟,但弊端也很明显:中间环节多、延迟高、信息损耗大。尤其在那些需要快速反馈的场景中(比如实时对话助手、语音控制),这种“文本中转”模式会明显拉低用户体验。
那么,能不能直接走语音到语音的路径?问题在于,开源LLM生态里,这条路一直走不通。现有的方案要么需要海量数据和算力去训练专门模型(比如SpeechGPT、AudioPaLM),要么只能在理解层面做文章,生成的语音质量无法保障。
研究方法
LLaMA-Omni的思路其实很务实:既然要把语音走得通,那就把整个链条拆成四个模块,每个模块用最成熟的方案去搭。具体来说:
语音编码器:直接拿Whisper-large-v3的编码器来干活,主要任务是从原始语音指令中提取有效的特征表示。这个公式里,H就是一段长度为T的语音表示序列。
语音适配器:编码器输出的序列太长了,需要做一步降采样。这里用了个简单的两层感知器(MLP),把5倍降采样后的特征对齐到LLM可以理解的维度。
大型语言模型(LLM):主干用的是Llama-3.1-8B-Instruct,这是一个经过充分微调的8B参数模型,指令跟随能力已经相当扎实。语音表示在这一层被整合进模型原本的输入空间。
语音解码器:这一块是非自回归的Transformer,结合CTC(连接时序分类)来预测离散单元序列。简单说,就是LLM输出的文本信息被快速映射回语音空间,省掉了逐帧生成的耗时。
实验设计
有了模型架构,还得有数据来训练。团队自己构建了一个InstructS2S-200K的数据集,包含20万条语音指令和对应的语音响应。怎么做呢?先把现有的文本指令数据重写一遍,然后通过语音合成技术转成语音对。这种做法的好处很明显——避免了从头收集数据的高昂成本。
模型配置上,编码器用Whisper-large-v3,LLM用Llama-3.1-8B-Instruct,适配器做5倍降采样,解码器只用了2层Transformer。训练策略是两阶段:先训练适配器和LLM,让模型学会“听语音并理解”,再训练语音解码器,让它学会“理解后说出来”。整个训练在4张GPU上,耗时大约65个小时。
结果与分析
评价一个语音交互模型,无非看三件事:内容对不对、语音好不好、以及快不快。
ChatGPT评分:在S2TIF(语音到文本指令跟随)和S2SIF(语音到语音指令跟随)两个任务上,LLaMA-Omni的内容评分和风格评分都超过了之前的主流模型。前者风格评分3.81,后者3.12——这个分数放在开源模型里,已经相当能打。
语音-文本对齐:团队用ASR-WER(词错误率)和ASR-CER(字符错误率)来衡量生成语音和原始文本之间的一致性。LLaMA-Omni在这两个指标上都是最低的,分别为7.59和41.40。这个数据说明,模型生成的语音并不是“随便说一句”,而是和底层文本高度对齐的。
语音质量:用UTMOS评分来评估语音的自然度。随着语音解码过程中单位块大小的增加,语音的自然度也会显著提升——这一点在技术实现上其实很关键,意味着可以灵活调节质量与延迟的平衡。
响应延迟:当设置为10时,端到端响应延迟低至226毫秒。对比一下,GPT-4o的平均音频延迟是320毫秒。换句话说,LLaMA-Omni不仅追上了商用闭源方案,甚至做到了更快。
解码时间:在S2TIF和S2SIF任务上,平均解码时间分别为1.49秒和1.92秒。这个速度比当前同类型的开源方案快了一个量级。
总体结论
LLaMA-Omni的意义在于证明了:在开源生态里打造一个低延迟、高质量的语音交互模型,是完全可行的。它没有依赖额外的预训练或大规模数据采集,而是通过对现有成熟模块的精妙组合与两阶段训练策略,实现了与GPT-4o同级别甚至更优的性能。
值得注意的一点:训练成本并不高,65小时的GPU时间,换来的是一整套可以直接跑在最新Llama基座模型上的语音交互能力。这意味着后续的版本迭代速度会非常快——只要LLM基座有更新,LLaMA-Omni就能快速跟上来。
当然,目前生成的语音在表达力和实时交互的细腻程度上还有提升空间。但方向已经很清晰了:未来两年,实时语音交互一定会成为LLM落地的主要界面之一。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:中科院开源Llama-Omni挑战GPT-4o实时语音要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点很多人都在问:ShareGPT生成的分享链接,能不能删除或撤回?答案是明确的——不行。ShareGPT本身并不提供让已发布链接实时失效的机制。一旦链接被分享出去,任何持有它的人都能继续访问那个对话快照。不过别着急,虽然无法彻底“回收”,但通过以下操作,仍然可以将访问限制降到最低,接下来的几个步骤就能
2026吉林省交通科技创新大会在吉高集团数据产业园召开,主题为“智领吉林交通、科技实效赋能”。会议发布“人工智能+交通运输”创新应用成果案例与科技成果推广目录。吉辽黑三省共同发起东北交通科技创新一体化联合倡议,聚焦寒区基建、智慧路网等领域协同创新。
Omdia预测,2027年全球人形机器人出货量将突破10000台,2030年达38000台,年复合增长率83%。生成式AI热潮及伺服电机、传感器等部件成本下降推动发展。机器人将率先应用于汽车制造,未来拓展至物流、零售、医疗等领域,但技术仍处早期,规模化落地尚需数年。
2026年5月29日,东杰智能涨停,涨幅20 02%,市值达119亿元。扭亏为盈、营收增长超25%,可转债转股降低负债率,获标准无保留审计意见;新增AI业务布局紧跟科技风口;发展规划清晰,股东人数减少显示筹码集中,叠加MACD金叉等技术信号,多重因素推动股价上涨。
- 日榜
- 周榜
- 月榜
热点快看
