清华智谱开源GLM-4-Voice：能用北京话念绕口令且懂情绪

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI教程

清华智谱开源GLM-4-Voice：能用北京话念绕口令且懂情绪

热心网友时间：2026-07-01

转载

先说几个核心判断：GLM-4-Voice 的发布，标志着语音AI领域迈出了重要的一步。它不是简单的“ASR+LLM+TTS”拼凑，而是真正意义上的端到端语音模型——直接在一个模型里完成语音的理解和生成，绕开了“语音转文字再转语音”的中间过程，最大限度保留了原始音频中的语气、情感和语境信息。你可能会问，这有啥特别的？答案就在它的设计思路里。

GLM-4-Voice 是如何练成的？

传统的级联方案，说白了就是让语音先变成文字，再让大模型处理文字，最后让TTS把文字念出来。这一来一回，中间的信息损失几乎不可避免——语气、停顿、语速，以及那些在语音中隐藏的微妙信息，统统被过滤掉了。而端到端模型用“音频 token”直接建模语音，相当于让模型同时听懂了语音里的话和“话外音”。

图｜GLM-4-Voice 模型架构图。

GLM-4-Voice 由三个核心组件构成：

首先是 GLM-4-Voice-Tokenizer。它的思路很巧妙：在 Whisper 的 Encoder 部分加入 Vector Quantization，并通过有监督的 ASR 数据进行训练，从而将连续的语音输入转化为离散的 token。效率方面，每秒音频平均只需要 12.5 个离散 token 来表示，这个压缩比相当可观。

然后是 GLM-4-Voice-Decoder。这个解码器基于 CosyVoice 的 Flow Matching 模型结构，支持流式推理。最少只需要 10 个语音 token 就开始生成，可以显著降低端到端对话的延迟。

最后是 GLM-4-Voice-9B——这是模型的“大脑”。它基于 GLM-4-9B 进行语音模态的预训练和对齐，从而具备了理解和生成离散化语音 token 的能力。

图｜GLM-4-Voice-Tokenizer 和 GLM-4-Voice-Decoder 的架构。

预训练方面，团队攻克了两个关键难题：智商和表现力。他们的策略是把 Speech2Speech 任务解耦合为两个子任务——“根据用户音频做出文本回复”和“根据文本回复和用户语音合成回复语音”。这种拆分的好处是，可以针对性设计预训练目标，分别用文本预训练数据和无监督音频数据合成语音-文本交错数据来适配。

具体来说，预训练分为两个阶段。

第一阶段：大规模语音-文本联合预训练。这个阶段用了三种类型的语音数据：语音-文本交错数据、无监督语音数据和有监督语音-文本数据。三管齐下，实现了知识迁移（文本和语音模态间）、帮助模型学习真实世界语音特征，以及在基本任务上的性能提升。值得注意的是，GLM-4-Voice-9B 在 GLM-4-9B 基座上经历了数百万小时音频和数千亿 token 的音频文本交错数据预训练，音频理解和建模能力已经有了很好的基础。

第二阶段：监督微调。这一阶段的目标是进一步提升对话能力。研究人员使用了两种对话数据：多轮对话数据和语音风格控制对话数据。前者主要来自文本数据，经过筛选和语音合成以确保质量和多样性；后者则是高质量的对话数据，用来训练模型生成不同风格和语调的语音输出。

此外，在对齐方面，团队设计了一套“流式思考”架构：根据用户语音，模型可以流式交替输出文本和语音两个模态的内容。语音模态以文本为参照来保证内容质量，还能根据用户语音指令做出相应的声音变化——比如模仿某种语气或情绪。这种设计既保留了语言模型的智商，又具备端到端建模的能力，最低只需要输出 20 个 token 就可以开始合成语音，延迟控制得相当好。

效果怎么样？

研究团队从基础模型和聊天模型两个维度进行了评估。

在基础模型层面，他们通过三项任务来考察：语音语言建模、语音问答，以及 ASR 和 TTS。

语音语言建模方面，GLM-4-Voice 在 Topic-StoryCloze 和 StoryCloze 等数据集上的准确率显著领先。比如在“从语音到文本生成”（S→T）任务中，准确率达到了 93.6%，远高于其他模型。在“语音到语音生成”（S→S）任务中，同样在 Topic-StoryCloze 上拿到了 82.9% 的高分，与 Spirit-LM 相当。

图｜语音语言建模结果。

语音问答任务上，GLM-4-Voice 在 Web Questions、Llama Questions 和 TriviaQA 等数据集上全面领先。S→T 模态下，TriviaQA 数据集准确率达到 39.1%，相比 Moshi 提升了 16.3 个百分点。S→S 模态下，在 Llama Questions 中的表现甚至达到了 50.7%，大幅领先其他模型。

图｜语音问答结果。

在ASR 和 TTS 任务中，GLM-4-Voice 的性能接近甚至超越了专门设计的语音处理模型，这说明端到端方案在通用性和专业性之间找到了一个不错的平衡点。

图｜ASR 和 TTS 结果。

再看聊天模型的评估结果。研究团队引入了 ChatGPT 作为自动评分工具，对回答进行多维度评价。GLM-4-Voice 在通用问答（General QA）和知识问答（Knowledge QA）两类任务中得分遥遥领先：General QA 得分 5.40，相比 Llama-Omni（3.50）和 Moshi（2.42）提升显著。Knowledge QA 的表现同样超越其他模型。

语音生成质量方面同样亮眼。模型主观评价指标（MOS）达到 4.45，超过现有基线模型，说明生成的语音更加自然流畅。在文本与语音对齐性测试中，语音转文本误差率（ASR-WER）降至 5.74%，显示出一流的文本-语音一致性。这种能力在多模态交互场景中价值显著。