StepFun团队如何优化AI语音助手避免机械应答提升对话质量

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

StepFun团队如何优化AI语音助手避免机械应答提升对话质量

热心网友时间：2026-05-16

转载

这项由阶跃星辰（StepFun）音频研究团队主导的创新研究成果，已于2026年4月28日以技术报告形式正式发布。相关研究论文可在预印本平台ArXiv上查阅，论文编号为arXiv:2604.25719，读者可通过此编号检索并下载完整原文进行深入研读。

当AI语音助手变成

你是否曾有这样的困扰：向智能语音助手提问时，它给出的答案在字面上完全正确，但整个交流过程却显得冰冷、刻板，仿佛在与一台预设好的自动应答机对话？答案都对，但就是缺乏应有的“人情味”和自然感。这并非偶然现象，其背后折射出当前语音AI领域一个普遍的技术瓶颈。而阶跃星辰团队的这项最新研究，正是为了从根本上破解这一难题，让AI语音助手真正学会“好好说话”。

研究背景：当AI精通“推理”后，为何对话体验反而下降？

要理解这项研究的核心价值，需要从一个近年来人工智能领域的关键突破讲起：“思维链推理”（Chain-of-Thought， CoT）。

传统AI模型的应答模式通常是“端到端”的直接输出。而思维链推理技术则要求AI在给出最终答案前，像人类一样逐步展示其内部的思考逻辑与推理步骤。这种方法极大地提升了AI处理复杂数学问题与逻辑推理任务的能力，诸如OpenAI的o1模型和深度求索的R1模型都凭借此项技术在专业评测中表现卓越。

支撑这种能力的主流训练方法，被称为“基于可验证奖励的强化学习”（Reinforcement Learning with Verified Rewards， RLVR）。其原理直观高效：向AI模型提出问题，若其经过推理后得出的最终答案正确，则给予正向奖励；若答案错误，则给予惩罚。通过大量此类训练，模型会越来越擅长推导出准确答案。

这听起来似乎完美无缺。然而，当研究人员将这套在文本领域大获成功的范式直接迁移到语音和音频对话场景时，一个意想不到的负面效应出现了。

一、“可验证奖励陷阱”：追求答题正确，牺牲对话体验

将思维链推理与RLVR方法应用于语音AI模型，在客观的评测指标上确实带来了显著提升——模型在音频场景理解、语音问答准确性等任务上的分数大幅提高。但与此同时，研发人员观察到一个令人困扰的趋势：这些模型在实际的多轮对话交互中，变得越来越“不好用”。

它们的回应变得简短、生硬，缺乏情感温度和对话的流畅感。用研究团队的话来形容，这些模型逐渐退化为纯粹的“答题机器”——技术上无懈可击，体验上却枯燥乏味。

其根源不难理解。我们可以做一个类比：假设你训练一名客服专员，唯一的绩效考核标准是“提供的信息必须100%准确”。那么，这位客服自然会优化自己的行为，倾向于用最快速、最直接的方式抛出正确答案。至于他的沟通语气是否友好、是否具备共情能力、是否关注用户的潜在情绪，这些都不在考核范围内。长此以往，他就会变成一台精准却令人不愿与之多谈的“信息播报器”。

这正是RLVR训练给语音AI带来的核心矛盾。音频是一种蕴含了语调、情绪、节奏、停顿等连续且丰富副语言信息的媒介，这些维度共同构成了真实、自然的人类对话体验。但RLVR提供的奖励信号只认一个硬性标准：最终答案的文本标签是否正确。于是，AI在优化过程中，会逐渐忽略对那些细腻体验维度的建模，将所有精力集中于专精“答对题”这一单一技能。

阶跃星辰团队将这一现象精准地定义为“可验证奖励陷阱”。这既是他们开展此项研究的出发点，也是整个工作旨在攻克的核心挑战。

二、引入新标准：用人类偏好教会AI“如何说得好”

在厘清问题根源后，阶跃星辰团队提出了明确的解决思路：既然单一依赖“答案对错”的评判标准会导致AI回应机械化，那么就需要引入一套更贴近人类真实对话感受的综合评价体系——直接让人类来评判回答的质量。

这便是“基于人类反馈的强化学习”（Reinforcement Learning from Human Feedback， RLHF）的核心逻辑。RLVR追问的是“答案正确吗？”，而RLHF探究的是“这个回答让人感觉好吗？”。两者的区别，犹如客观题与主观题的评分差异——前者有唯一标准答案，后者则需要综合考量多种因素。

具体到复杂的多轮语音对话场景，“好不好”本身就是一个多维度的评判。有些维度相对客观，例如用户明确指令“用欢快的语气回复”，AI是否执行？对话中提及的关键信息，后续是否被准确记住并引用？这类标准有迹可循。而另一些维度则更为主观和微妙，例如回应听起来是否自然流畅？对话节奏是否舒适？语气是否恰当且富有感染力？这些判断难以用硬性规则量化，但人类凭借直觉便能轻易感知优劣。

为了同时兼顾这两类评判需求，研究团队创新性地设计了一个统一的生成式奖励模型。该模型具备灵活的评判模式：当对话样本存在明确、可验证的规则时，模型就切换到“规则检查”模式，评估AI回答是否达标；当缺乏明确规则时，模型则切换到“相对比较”模式，将AI的回答与一个高质量的参考回答进行对比，判断孰优孰劣。

这种相对比较的设计还带来了一个关键优势：它能提供“好很多”、“略好一些”、“大致相当”、“稍差一些”等具有程度差异的反馈信号。对于模型训练而言，这种细粒度的、带有梯度信息的反馈，远比简单的“对/错”二元信号更有指导价值。这就好比老师批改作文时给出的详细评语，远比仅仅打一个“√”或“×”更能帮助学生进步。

三、系统构建：模型架构与三阶段训练策略

确立了以RLHF为核心的解决方案后，Step-Audio-R1.5模型的整体架构设计与训练流程便围绕这一思路全面展开。

模型的硬件感知架构主要由三个核心组件构成：

音频编码器：负责“听懂”世界，采用了经过海量语音数据预训练的阿里通义千问Qwen2音频编码器，其任务是将原始的音频波形信号转化为AI能够理解和处理的高维特征表示。在后续训练中，这部分参数被保持冻结，以充分利用其已经具备的强大听觉感知能力。

音频适配器：扮演“桥梁”角色，负责对编码器输出的连续特征进行时间维度的压缩（从每秒25帧降至12.5帧）。这一压缩操作至关重要，它能有效控制在多轮长对话中不断累积增长的序列长度，从而大幅降低模型的计算开销和内存占用。

语言模型解码器：作为“思考”与“应答”的核心大脑，基于阿里通义千问Qwen2.5 32B大语言模型进行初始化。它接收经过压缩的音频特征，并生成纯文本形式的输出。为了支持思维链推理，模型会先生成内部的推理过程文本，再生成最终面向用户的回答文本，两者在结构上明确分离。这种分离式设计确保了后续的RLHF训练能够精准地作用于对最终回答质量的优化上，而不干扰其推理逻辑。

整个训练流程被精心设计为三个阶段，层层递进，逐步深化：

第一阶段：以音频为中心的中期预训练。目标是夯实模型的知识与感知基础，使其能够真正理解多样化的音频内容（如对话、环境音、音乐等），并掌握通用的逻辑推理能力。训练数据融合了高质量的专业音频理解任务数据与大规模的纯文本推理数据，二者相辅相成，共同构建起模型坚实的认知与推理框架。

第二阶段：冷启动有监督微调。前一阶段让模型变得“学识渊博”，但博学并不等同于“善于交流”。此阶段如同一次系统的“社交礼仪培训”，旨在教会模型得体、规范的对话行为。训练重点强化四种关键能力：多轮对话的上下文连贯性、对用户指令的精准遵从、回应语言的自然度与流畅性、以及应对追问、打断等动态交互的灵活意识。所使用的数据均为精心构造的多轮对话样本，目的是为模型建立良好的初始对话习惯，为后续高难度的RLHF训练铺平道路。

第三阶段：基于人类反馈的强化学习训练。在前两个阶段打下坚实能力基础后，此阶段专注于精雕细琢，全面提升对话的综合质量与用户体验。奖励信号由前述的生成式奖励模型提供，采用相对比较的方式进行评判。为确保模型能力均衡发展，明确规则型评判与主观偏好型评判在训练过程中被同步进行优化。实践表明，将两者分开训练会导致模型出现严重的“能力遗忘”现象，而联合训练则能有效维持模型在各项能力上的稳定表现。

四、性能评测：数据揭示的突破与平衡

完成全部训练后，阶跃星辰团队通过一套涵盖8个不同维度的综合性基准测试，全面检验了Step-Audio-R1.5的各项能力，并与当前市面上的主流语音及多模态系统进行了横向对比。所有对比测试均通过各模型的官方API重新执行，以确保评测环境的公平与一致。参与对比的强劲对手包括谷歌的Gemini 3 Flash、Gemini 3 Pro，以及阿里的Qwen3.5-Omni-Flash、Qwen3.5-Omni-Plus。

测试范围非常广泛，主要包括：专门评估多轮语音对话交互能力的AudioMultiChallenge、测试复杂音频逻辑推理的Big Bench Audio、考察专业领域音频理解的MMSU和MMAU、评测语音数学推理的Spoken MQA，以及阶跃星辰自研的三个专项测试——Step-Caption（细粒度音频描述）、Step-DU（语音对话理解）和Step-SPQA（副语言特征问答）。

最终的综合性平均分显示，Step-Audio-R1.5取得了77.97分的优异成绩，在所有参与对比的模型中排名第二，仅次于谷歌的顶级模型Gemini 3 Pro（79.67分），同时领先于Gemini 3 Flash（77.56分）、Qwen3.5-Omni-Plus（75.77分）和Qwen3.5-Omni-Flash（70.55分）。

与其前代模型Step-Audio-R1（72.50分）相比，平均分5.47分的提升背后，最引人注目的是在AudioMultiChallenge测试上的巨大飞跃：得分从24.61分大幅跃升至41.15分，提升幅度超过16分。该测试专门模拟包含打断、犹豫、话题转换等情况的真实人类互动场景，而这正是RLHF训练旨在优化的核心目标。

在与对话交互质量密切相关的Step-DU测试上，提升幅度高达18.39分。在评估副语言理解的Step-SPQA和细粒度描述的Step-Caption测试上，模型也取得了显著进步。

尤为可贵的是，在专门测试复杂多步逻辑推理能力的Big Bench Audio基准上，Step-Audio-R1.5取得了98.30的高分，几乎与专注于推理的前代模型持平。这有力地证明，RLHF的引入并未损害模型通过RLVR训练建立起的强大推理能力，成功实现了“对话体验”与“答案准确性”两者的和谐共存与共同提升。

从另一个视角看这些数据：Gemini 3 Pro/Flash是谷歌顶级的商用多模态系统，依托其庞大的数据资源与算力优势。Step-Audio-R1.5作为一个参数量为320亿的开放研究模型，能在综合评分上超越Gemini 3 Flash并紧追Gemini 3 Pro，尤其在衡量真实对话能力的多轮交互维度上展现出接近甚至超越Gemini 2.5 Flash模型的水准，这一结果充分验证了其技术路径的有效性与先进性。

五、意义与展望：从机械应答到自然对话的范式转变

这项研究的根本启示在于：语音AI在技术指标上的“正确性”，与在用户体验上让人感觉“自然、好用”，是两种不同的价值维度，需要采用不同的方法进行针对性优化。

过去的许多研究隐含着一个假设：只要模型能给出正确答案，就是一个好模型。这个假设在封闭域的文本问答任务上或许成立，但在开放域的语音对话场景下则远远不够。声音所承载的信息密度和情感维度远高于纯文本，情绪、语气、节奏、互动感……这些要素共同决定了一次对话是否令人感到舒适、自然，并愿意持续进行。一个只会“答对题”的语音AI，就像一位学识渊博却沟通刻板的专家——你可以向他查询事实，但绝不会享受与他聊天的过程。

此项研究的价值，不仅体现在它提升了多项评测基准的分数，更在于它标志着语音AI研究重心的一次关键性转移：从单纯追求“说什么内容是正确的”，转向同时追求“以何种方式说是更好的”。这种转向，很可能成为未来智能语音助手、AI客服、虚拟陪伴等应用在用户体验上实现跨越式提升的关键所在。

研究团队指出，Step-Audio-R1.5是目前已知首个系统性地将RLHF方法引入音频推理模型训练的工作。它用扎实的实验结果证明，那种机械、空洞的回应风格并非思维链推理技术固有的缺陷，而是由于奖励信号设计过于单一所导致的结果——而这个问题，完全可以通过引入更贴近人类偏好的、综合性的训练方法予以有效纠正。

当然，这项工作仍有许多值得深入探索的方向。例如，奖励模型的判断与更广泛真实用户主观偏好之间的对齐如何进一步优化？在超长程的多轮对话中，上下文的连贯性与一致性能否持续保持？这些都是未来研究可以跟进的重要课题。对技术细节感兴趣的开发者与研究人员，可通过论文编号arXiv:2604.25719在ArXiv平台查阅完整论文。

常见问题解答

Q1：RLVR和RLHF在训练语音AI时的主要区别是什么？

A：RLVR（基于可验证奖励的强化学习）仅关注最终答案的文本是否正确，使用“对/错”这种二元信号进行训练。其优点是自动化程度高、成本较低，但致命缺点是完全忽略了回应的语气、自然度、情感等对话体验维度。RLHF（基于人类反馈的强化学习）则通过采集人类对回答质量的综合评判来训练模型，能够学习并优化对话是否自然、语气是否得当、互动是否流畅等难以量化的体验指标。Step-Audio-R1.5正是通过引入RLHF，成功解决了语音AI因过度优化正确答案而导致的“答题机器化”问题。

Q2：“可验证奖励陷阱”具体是如何导致语音AI体验变差的？

A：当语音AI完全采用RLVR范式训练时，其唯一的优化目标就是最终文字答案的匹配度。在长期的训练过程中，模型会变得越来越擅长从问题中提取并匹配正确的答案标签，但对音频流中所蕴含的情绪色彩、语调起伏、语速变化等丰富的副语言信息越来越不敏感，因为这些维度完全不影响它获得的奖励分数。最终导致的结果是，模型在封闭测试集上可能取得很高的准确率分数，但在实际开放对话中，其回应往往短促、生硬、缺乏情感，在多轮交互中尤其令人感到枯燥。这就是典型的“可验证奖励陷阱”效应。

Q3：Step-Audio-R1.5的三阶段训练分别解决了哪些核心问题？

A：三个阶段目标明确，环环相扣。第一阶段“音频中期预训练”主要解决基础的知识储备与跨模态感知能力问题，让模型既能“听懂”多样的声音，也具备基本的“思考”推理能力。第二阶段“冷启动有监督微调”主要解决对话行为与规范问题，如同进行社交训练，让模型学会如何进行连贯、礼貌、自然且符合指令的对话。第三阶段“RLHF训练”则是在前两阶段打好坚实能力基础后，专注于打磨和提升对话的整体质量与用户体验，通过模仿人类对回答好坏的判断，引导模型从冰冷的“答题机器”升级为懂得“好好聊天”的对话伙伴。

来源:https://www.techwalker.com/2026/0507/3185946.shtml

上一篇：英伟达加州理工学院研究AI虚拟荒岛自学能力提升方法

下一篇：中国人民大学团队揭示顶尖大模型在科学文献处理中的致命软肋