LLaMA-Omni:低延迟高质量语音交互模型
LLaMA-Omni整合语音编码器、语音适配器、大语言模型和流式语音解码器,实现端到端低延迟语音交互。它绕过中间文本转录,同步生成文本和语音,在InstructS2S-Eval基准测试中表现优于先前模型,响应延迟低至226毫秒,并依托专用数据集InstructS2S-200K训练。
大型语言模型(LLMs)在文本对话领域表现卓越,但当涉及语音输入输出时,挑战便随之而来:延迟与质量往往难以兼得。近年来,随着GPT-4o等技术突破,语音交互响应速度有所提升,但距离理想状态仍有明显差距。那么,核心瓶颈究竟在哪里?
01。

概述
为了实现与LLM的顺畅语音对话,研究者尝试了多种方案,但各存短板。最常见的方式是采用ASR(自动语音识别)+ TTS(文本到语音)串联架构,虽然简单直接,但每一步都需要等待:先转录语音为文本,再生成文本响应,最后合成语音。这一流程导致响应延迟居高不下。
另一些研究者则走更激进的路线,例如构建多模态语音-语言模型,将语音离散化为“标记”并扩展LLM词表,使其同时具备听与说的能力。理论上很理想,但实践中为保障质量仍需先生成文本,导致响应速度再次受限。此外,还有在语义或声学标记上训练语言模型的方案,或直接将语音编码器接入LLM。这些方法要么消耗海量数据与算力,要么仅解决了“听懂”问题,而忽略了“说好”的需求。
02。
LLaMA-Omni的突破性创新
近日,中国科学院大学研究团队提出全新架构——LLaMA-Omni,其核心目标明确:实现低延迟、高质量的语音交互。关键突破在于整合了语音编码器、语音适配器、LLM与流式语音解码器,打通了从语音到语音的完整链路。
具体而言,LLaMA-Omni直接处理语音输入,绕过中间文本转录步骤,大幅降低延迟。其架构由四部分组成:
- 语音编码器:基于Whisper-large-v3,负责从语音输入中提取有意义的特征。
- 语音适配器:对编码后的特征进行下采样,并通过两层感知器映射到LLM的嵌入空间。
- LLM:基于Llama-3.1-8B-Instruct,直接根据语音指令生成文本响应。
- 语音解码器:一个非自回归流式Transformer,利用连接时序分类(CTC)预测语音对应的离散单元,实现了文本和语音的同步生成。
换言之,用户在听到语音回复的同时,文本也在同步生成——这才是真正意义上的端到端语音交互。
03。
LLaMA-Omni的训练与评估
在训练策略上,LLaMA-Omni采用两阶段方法。第一阶段学习从语音指令生成文本响应;第二阶段专注于生成语音响应。推理时,语音解码器在LLM生成文本的同时,实时将结果转换为语音波形。
为了支撑训练与评估,团队还专门创建了新数据集——InstructS2S-200K。该数据集包含20万个语音指令、文本响应与语音响应的三元组,涵盖Alpaca的5万条和UltraChat的15万条条目。数据集的构建流程也经过精心设计:先用Llama-3-70B-Instruct将文本指令改写为更贴近语音的表述,再生成适合语音交互的简洁回复,最后通过CosyVoice-300M-SFT与VITS进行语音合成。这一系列操作使LLaMA-Omni在语音交互任务上奠定了坚实基础。
04。
未来展望
在InstructS2S-Eval基准测试中,LLaMA-Omni的表现显著优于此前模型,尤其在语音到文本、语音到语音的内容一致性方面表现突出。更为关键的是,它在语音质量与响应延迟之间取得了良好平衡——延迟低至226毫秒。与其他模型相比,LLaMA-Omni同时生成文本与语音的能力,使解码速度大幅提升。案例研究也显示,其响应更简洁、更详细、更具帮助性,尤其适用于语音交互场景。
总体而言,LLaMA-Omni的意义不仅在于端到端语音交互的突破,更在于提供了一套可复用的方法论:专用训练数据集、优化训练流程,以及合理的模型架构。若未来语音交互模型能沿此思路快速迭代,应用落地的速度或将超出预期。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:LLaMA-Omni:低延迟高质量语音交互模型要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点5月29日,世纪天鸿跌了3 44%,成交额8315 52万元,换手率2 50%,总市值33 94亿元。单看这组数字,市场情绪确实有点低迷。 异动分析 世纪天鸿身上贴着好几个热门的标签:AI语料、ChatGPT概念、AIGC概念、文化传媒概念、在线教育。但这些概念到底能不能撑起股价?得拆开看。 1
广州市政府最新发布的“十五五”规划纲要,将人工智能产业提升至战略核心位置,明确提出“跻身全国第一方阵”的宏伟目标。这绝非空洞口号,整份文件详细布局了从技术研发到场景落地、从终端产品到生态构建的系统性方案。 “人工智能+”行动被列为重中之重,要求与经济社会各领域实现深度融合。简言之,广州旨在成为国家A
搜极星是中立第三方AI品牌洞察服务平台,专注监测与分析而非优化。提供星盾验真(个人免费识别AI幻觉与投毒)及企业GEO监测(20余项指标)。数据同步准确率99 9%,覆盖12个以上主流大模型,助力用户验证AI内容真实性或评估品牌AI影响力。
私募巨头阿波罗全球管理与黑石集团正联手推进一项重磅计划——为AI企业Anthropic筹集约360亿美元的债务资金,专门用于采购谷歌定制的TPU芯片。简而言之,这笔资金并不会直接注入Anthropic,而是先购入芯片,再通过租赁方式提供给Anthropic使用。而为谷歌代工TPU的博通公司,则为此交
- 日榜
- 周榜
- 月榜
热点快看
