2秒钟转写5分钟音频！国产新语音模型拿下多项SOTA，定价骤减90%

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

2秒钟转写5分钟音频！国产新语音模型拿下多项SOTA，定价骤减90%

热心网友时间：2026-04-27

转载

阶跃星辰发布StepAudio 2.5 ASR：推理提速400%，长音频处理迎来新突破

4月24日，阶跃星辰正式推出了新一代自动语音识别模型StepAudio 2.5 ASR。这款模型主要瞄准语音转写与长音频处理场景，在架构上玩了个新花样——引入了Multi-Token Prediction（多Token预测）技术来提升推理效率，同时通过扩展上下文窗口，显著强化了对长内容的整体识别能力。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

官方公布的数据相当亮眼：推理速度提升了约400%，时延降低了60%，推理峰值能达到500 tokens/s，而成本则下降了80%。在多项公开测试集上，它也交出了错误率较低的答卷。

精度方面，阶跃星辰宣称StepAudio 2.5 ASR在多个主流评测基准上达到了业内领先水平。效率上，一段约5分钟的音视频能在较短时间内完成转写，并且支持一次性完整处理最长30分钟的音频。更引人注目的是其定价策略：StepAudio 2.5 ASR的服务费用定为0.15元/小时，这仅仅是其上代产品Step ASR 2价格的十分之一。

不过，技术指标是一回事，实际表现如何？在后续的测试中我们发现，模型对不同音频输入的适应性确实存在差异：部分上传的音频文件未能成功识别，而在实时录音场景下，它的表现则相对稳定，整体转写准确度较高。

一、不同模式下语音识别效果存在差异

在官方演示的场景里，面对大段连续的口述内容，StepAudio 2.5 ASR能够实现长时间的连贯输出。识别过程中，文本还原稳定，语义保持完整，长音频的转写质量表现得相当均衡。

不仅如此，模型对复杂语境的适配能力也更强了。无论是日常高频的中英混杂表达，还是像绕口令这种发音紧凑、咬字复杂的特殊语句，它都能稳定完成精准识别与完整转写。看得出来，其抗干扰能力和语言包容性确实有了进一步提升。

▲阶跃星辰官方演示

我们也依托阶跃星辰的在线体验平台做了实测，特意选取了一段张雪峰老师的高考志愿填报课程录音作为测试素材，重点检验模型在长音频场景下的真实识别能力。

这个上传模式主要面向会议纪要整理、采访录音转写、课程内容归档等场景，支持WA V、MP3、OGG、PCM等主流格式，单文件大小不超过20MB，同时支持中文、英文及中英混合识别。

但有意思的是，在多次上传同一段音频后，系统均提示“未检测到清晰语音”，未能完成有效转写。具体原因目前尚不明确。

随后，我们切换到了现场录音模式进行测试。这个模式更适合快速语音备忘、现场会议记录等场景，同样支持中英文及混合识别，但单次录音时长上限为2分钟。

这次的识别结果如下：

在这个场景下，模型表现正常，整体转写结果较为准确，对口语内容的还原度很高。关注几个细节：当说话人出现较长停顿时，模型会自动插入额外的逗号进行分割；同时，算法完整保留了日常口语中自然的重复、口头复述等特征，相当真实地还原了原始的语言状态。

二、Multi-Token Prediction优化推理效率

StepAudio 2.5 ASR这次的一个核心亮点，是将Multi-Token Prediction技术引入了语音识别赛道。它沿用了Step 3.5 Flash的同款技术方案，采用Audio Encoder+Linear Adapter+LLM+MTP-5的融合架构，从根本上打破了传统串行输出的限制。

简单来说，这个模型可以单次预测多组候选Token，再结合并行验证机制快速输出识别结果，从底层架构上优化了推理效率。