当前位置: 首页
业界动态
OpenAI发布三款语音模型AI语音交互迎来新突破

OpenAI发布三款语音模型AI语音交互迎来新突破

热心网友 时间:2026-05-11
转载

昨天凌晨,OpenAI正式揭晓了三款全新的音频模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。官方将其定位为能让开发者构建具备“实时推理、翻译和转写”能力的语音产品。目前,这三款模型已面向开发者开放测试。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这次更新的核心,在于三款模型清晰的功能分工。

GPT-Realtime-2瞄准实时语音助手场景,它是OpenAI首个宣称具备“GPT-5级推理”能力的语音模型,旨在处理复杂请求、调用工具、应对中途打断,并在更长的语音会话中维持连贯的上下文。

GPT-Realtime-Translate专攻实时语音翻译,支持超过70种输入语言和13种输出语言。

GPT-Realtime-Whisper则专注于实时语音转写,能在人说话的同时生成文本,适用于字幕、会议记录等工作流更新场景。

价格体系也随之公布。GPT-Realtime-2采用按token计费,音频输入起价为每百万token 32美元,输出为64美元;GPT-Realtime-Translate和GPT-Realtime-Whisper均按分钟计费,价格分别为每分钟0.034美元和0.017美元。

根据相关报道,包括Zillow、Priceline和德国电信在内的多家知名企业,已开始测试这些新模型。

此次发布,可以看作是OpenAI过去一年语音战略的自然延伸。回顾一下时间线:2024年,OpenAI首先将ChatGPT高级语音模式背后的低延迟能力开放给开发者;2025年8月,首个正式版GPT-Realtime问世,开始面向生产级语音助手;今年2月,GPT-Realtime-1.5成为上一代主力模型。而如今2.0版本的三大模型矩阵,标志着Realtime产品线正从功能体验,全面迈向企业级API的版本升级。

从对话走向执行

先看此次的旗舰模型GPT-Realtime-2。根据OpenAI的描述,这是第一款具备“GPT-5级推理”的语音模型,专为处理复杂请求、调用工具、应对中断以及维持长会话上下文而设计。

这些能力,恰恰对应了语音助手落地时最棘手的几个问题。

一个关键提升是将上下文窗口从32K扩展到了128K。这个参数对于长会话场景意义重大。试想一下,用户咨询一套房产的详细信息,或者处理复杂的机票改签,这类对话往往包含大量前置条件和多轮确认。更大的上下文窗口,意味着模型能在更长的实时对话中,牢牢记住之前提到的限制、偏好和业务细节。

“工具调用”是这次更新的另一个关键词。Realtime API允许开发者构建能够调用外部工具的语音体验。应用可以保持实时会话连接,连续发送音频,接收模型事件,更新会话状态,并将外部系统返回的结果反馈给模型,从而形成闭环。美国房地产平台Zillow就是官方公布的首批企业案例之一。OpenAI提到,Zillow正在利用GPT-Realtime-2构建能够理解住房条件并安排看房的语音助手。Zillow方面表示,在最严苛的对抗性测试中,经过提示词优化后,电话任务的成功率从69%提升到了95%,并且在涉及“公平住房”的合规性表现上也更为稳定。

这里提到的“公平住房”,指的是美国住房交易中反歧视的合规要求,平台不得基于种族、宗教、性别等因素进行区别对待。从“能对话”进化到“会办事”,这或许是GPT-Realtime-2给行业带来的最大冲击。

Booking旗下知名旅游平台Priceline,则代表了另一类典型落地场景。据了解,Priceline也在测试GPT-Realtime-2系列。旅游预订链条长且复杂,用户可能需要查询航班、预订酒店、调整日期、处理延误、比价,甚至在境外需要翻译。如果语音助手能稳定接入后台系统,就有机会将服务从简单的“问答”推进到真正的“办事”。

OpenAI提到的另一个已知客户是德国电信。电信行业本身拥有大规模客服坐席、复杂的套餐业务、故障处理、多语言服务和账单解释需求,无疑是语音模型落地的天然沃土。

GPT-Realtime-2还有一个值得关注的细节:可调节的推理强度。OpenAI的开发者文档指出,该模型将推理能力引入了语音到语音的工作流。在多数生产场景中,开发者可以先使用较低的推理强度,优先保障通话中的响应速度;当遇到更复杂的客服、预订或排障任务时,再提高推理强度,用更多的计算资源换取更周全的判断。

这个设计非常务实。语音交互比文字聊天更惧怕停顿,用户在电话中等待一两秒,卡顿感就会非常明显。推理越强,通常延迟压力也越大。如何在性能与响应速度之间取得平衡,是开发者必须面对的取舍。

官方也提供了一些基准测试数据。OpenAI称,在衡量音频输入、多轮对话、复杂指令和上下文整合能力的Big Bench Audio和Audio MultiChallenge测试集上,GPT-Realtime-2的表现分别比GPT-Realtime-1.5高出15.2%和13.8%。

第二款模型GPT-Realtime-Translate,主打实时语音到语音的翻译。按照开发者示例,它适用于广播、直播、电话和视频对话等场景,能够自动识别输入语言并输出翻译后的语音和文本,开发者只需设定目标语言。该模型支持70多种输入语言到13种输出语言,并能在说话人讲话时跟上节奏。传统语音翻译往往要求说话人停顿,等一句话结束后再翻译,而GPT-Realtime-Translate则更接近连续口译的模式。

OpenAI将其应用场景分为两类:一类是广播式翻译,如直播、网络研讨会、大型会议演讲;另一类是对话式翻译,如呼叫中心、视频通话。这两类基本覆盖了企业最愿意付费的跨语言场景:客服、教育、国际会议、内容平台与跨境销售。

第三款模型GPT-Realtime-Whisper,强调实时流式转写。它能在说话时同步生成字幕、会议记录或工作流更新。相比前两者,Whisper的商业门槛最低,价格仅为每分钟0.017美元。

将三款模型放在一起看,OpenAI已经将实时音频赛道拆解为三个明确的入口:GPT-Realtime-2处理智能语音助手,GPT-Realtime-Translate攻克跨语言沟通,GPT-Realtime-Whisper解决实时文本化。三者在定价、延迟要求和客户场景上各有侧重,其战略意图很明显:在差异化的路径上,试图全面覆盖语音AI市场。

TTS市场:卷完“音质”,再卷“实时”

这次发布传递出一个清晰的商业信号:OpenAI正将其语音AI能力,全面推向API市场和企业工作流。

除了官方点名的Zillow、Priceline和德国电信,更多公司正在接入这批新模型。例如,视频平台Vimeo、企业知识管理工具Glean、客服软件公司Intercom,以及专注于企业语音助手的BolnaAI,都出现在目前已披露的相关案例中。这意味着,GPT-Realtime系列已成为OpenAI一个成熟的商业化产品线,客户覆盖了内容平台、企业办公、客服系统和语音助手创业公司等多元化的开发者群体。

OpenAI所展示的,是一幅AI在真实业务中运作的图景:在通话中理解需求、调用系统、翻译语言,并将语音交互无缝接入企业后台。而这一切,正发生在语音AI市场持续升温的周期内。

过去两年,语音AI赛道备受瞩目的公司之一是ElevenLabs。这家2022年成立的公司,最初凭借高度拟真的AI配音、声音克隆和多语言本地化能力脱颖而出,随后又将产品线延伸至企业语音助手。今年2月,ElevenLabs宣布完成5亿美元D轮融资,估值达到110亿美元,较2025年1月的33亿美元大幅跃升。公司表示,资金将用于全球扩张,并持续投入情感化对话模型、配音、转写和AI语音助手等方向。

更近的动态显示,ElevenLabs的年化经常性收入已超过5亿美元,其D轮融资方阵容豪华,既包括贝莱德、惠灵顿管理等大型机构,也包括英伟达、赛富时创投、德国电信等产业资本,甚至吸引了演员Jamie Foxx、Eva Longoria以及《鱿鱼游戏》创作者黄东赫等个人投资者。

市场的需求正在急剧变化。语音AI早已不再是创作者的配音工具那么简单。影视、广告、游戏、教育、企业培训、无障碍服务、内容出海和电话助手等领域,都在渴求更自然、更经济、更可控的机器语音。

Deepgram代表了另一种路线。这家公司长期深耕语音识别基础设施,客户多来自联络中心、会议、销售、医疗、金融等高频率语音场景。近年来,Deepgram开始补全文本转语音和语音助手接口,试图打通语音模型的“办事”能力。其Aura-2文本转语音模型面向实时应用,流式延迟低于200毫秒,并能更自然地朗读地址、电话号码等结构化内容。同时,它将语音识别、合成、实时情绪分析、话题检测和摘要能力打包,提供给联络中心等企业场景。

Cartesia则主打低延迟和实时交互。这家由前斯坦福AI实验室成员创办的公司,以状态空间模型为技术标签,追求更快、更低成本的实时多模态模型。其核心语音产品Sonic系列,主打低延迟文本转语音。根据文档,Sonic 3是一个流式模型,强调高自然度、精准跟随文本和低延迟,支持42种语言,并可控制音量、语速和情绪。在Cartesia官网上,90毫秒的低延迟被作为实时对话体验的核心卖点。

这些公司的竞争,共同推动了TTS(文本转语音)市场的演进。早期的竞争焦点是“像不像真人”;随后,战火蔓延到多语言覆盖、声音克隆、情绪表达、版权和效率;而现在,语音助手将标准再次拉高。企业需要的不仅仅是一个好听的声音,而是一套完整链路:精准的语音识别、极低的首字延迟、能理解上下文的大模型、稳定的工具调用、自然的语音合成、流畅的翻译,以及能融入后续工作流的转写能力。

一些行业资料反映了这一趋势。Deepgram在一篇对比文章中提到,面向语音助手的文本转语音,已将“首段语音生成低于100毫秒”视为新的性能基线之一。

在全行业竞逐“实时”能力的背景下,OpenAI最大的优势或许在于其完整的模型栈。开发者可以在同一个平台上调用从语音识别、理解、推理到合成、翻译的整套能力,减少了对接多个供应商带来的延迟、集成和运维成本。对企业而言,统一平台也意味着更便捷的权限管理、日志留存、数据策略和安全审查。

当然,OpenAI想要通吃企业语音市场,也并非易事。ElevenLabs估值已达110亿美元,年化收入超5亿美元;Deepgram在今年1月完成1.3亿美元融资,估值13亿美元,服务超1300家客户;Cartesia也在2025年完成6400万美元A轮融资,其Sonic模型据称已有上万客户使用,并以90毫秒延迟和42种语言作为主打。OpenAI虽有模型栈优势,但语音市场早已强手如林。

萨姆·奥特曼对这次发布的公开表态非常简短。他在X上表示,GPT-Realtime-2进入API是“相当大的一步前进”,同时OpenAI仍在持续改进ChatGPT内的语音体验。不过,从各大企业用户争相测试的态势来看,OpenAI的这一代新语音模型,足以让人对其未来一年的市场表现抱有更多期待。

来源:https://36kr.com/p/3800101438993153

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
吉利汽车携全系产品技术亮相车展 开启全域AI 2.0时代

吉利汽车携全系产品技术亮相车展 开启全域AI 2.0时代

吉利汽车在北京车展推出全域AI2 0技术体系,首发Robotaxi原型车EvaCab。该车以乘员为中心设计,集成量子级AI架构、超强算力平台及2160线激光雷达,支持L4级自动驾驶。吉利通过星睿AI大模型与智算中心构建“1+2+N”智能体布局,加速高阶智能驾驶技术在多车型落地,展现智能出行领域领先实力。

时间:2026-05-11 21:25
一加与realme合并 OPPO成立全新子系列事业部

一加与realme合并 OPPO成立全新子系列事业部

OPPO成立子系列事业部,整合一加与真我品牌。李炳忠出任负责人,徐起负责营销服。产品中心由李杰负责,研发团队回归OPPO。真我用户自2026年起可接入OPPO服务体系,享受线下维修、寄修追踪及会员日服务。一加下一代旗舰或搭载骁龙8EliteGen6Pro芯片,配备顶级屏幕,定价策略受关注。

时间:2026-05-11 21:25
2026年4月汽车销量榜发布比亚迪奇瑞吉利领跑出口数据亮眼

2026年4月汽车销量榜发布比亚迪奇瑞吉利领跑出口数据亮眼

2026年4月汽车销量排行榜发布:比亚迪蝉联榜首,奇瑞吉利紧随其后,海外市场成增长引擎 随着2026年4月汽车销量与交付数据的陆续公布,国内汽车市场的竞争格局呈现出新的动态。比亚迪凭借32 1万辆的月度销量成绩持续领跑,展现出强大的市场号召力。与此同时,奇瑞、吉利等传统车企稳居前列,而众多造车新势力

时间:2026-05-11 21:21
英特尔股价首破百美元市值突破五千亿美元大关

英特尔股价首破百美元市值突破五千亿美元大关

英特尔股价盘中大涨超6%,突破每股100美元,市值站上5000亿美元大关。四月累计涨幅达114%,实现翻倍增长。公司第一季度营收同比增长7%,数据中心与AI业务收入增长22%,成为核心增长引擎。高于预期的第二季度业绩指引进一步提振市场信心,显示其在AI时代保持强劲竞争力。

时间:2026-05-11 21:20
追觅模块化手机发布 机身与镜头均可拆卸设计

追觅模块化手机发布 机身与镜头均可拆卸设计

追觅科技创始人俞浩展示了模块化手机真机视频,其镜头模组与后盖均可磁吸拆卸,使机身更轻薄便携。该设计允许用户根据需求更换配件,提升灵活性与可玩性。目前手机已进入实际研发阶段,旨在以模块化思路开拓高端市场,具体配置和发布时间尚未公布。

时间:2026-05-11 21:20
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程