OpenAI研发双向语音模型:通话打断后可自然续聊,体验更拟人
据IT之家3月5日晚间报道,根据The Information的消息,OpenAI正在研发一款全新的语音模型,旨在让用户与ChatGPT的交谈体验更加流畅自然。当使用者在与AI对话过程中突然插话打断时,这款AI能够即时调整回应内容,而不会像现有系统那样突兀地中断。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
目前ChatGPT的高级语音模式采用的是回合式对话机制。用户必须先完整说完一段话,AI才会开始处理语音并生成回答。如果用户在AI发言时插入诸如"okay"或"mm-hm"等回应,系统通常会直接停止播报,而不会像真人对话那样顺势继续交流。
OpenAI正在开发的这项新技术被命名为BiDi模型。该模型具备持续处理说话者语音输入的能力,因此在被打断时可以立即调整回应内容。相比之下,现有语音模型一旦开始生成回答,其输出内容就基本固定,很难再根据新的输入信息进行实时调整。
这项技术目前仍处于早期开发阶段。一位了解项目情况的人士透露,原型模型在持续对话几分钟后容易出现故障,有时甚至会发出不自然的机械音。OpenAI研发团队原本希望在今年第一季度推出BiDi模型,但目前最新的发布时间可能会推迟到第二季度或更晚。
OpenAI认为,如果语音模型在性能表现上能够接近文本模型,AI的应用范围将进一步扩大。因为大多数人更习惯于通过语音与AI进行交流,而不是输入文字。
BiDi模型在客户服务场景中尤其具有应用潜力。例如,当顾客与零售商的AI客服对话时,如果顾客在交流过程中临时决定选择换货而非退货,BiDi模型理论上可以让AI客服顺畅地调整对话方向,而不会突然中断或出现应答混乱。
这位知情人士还表示,BiDi模型在调用外部工具和应用方面也更加灵活。据IT之家了解,OpenAI此前曾表示,公司计划为未来一款主要通过语音交互的AI设备改进语音模型,并考虑开发一款智能音箱,用户通过语音指令即可查看邮件或预订服务。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
越南机器人2025营收49.2亿增31.6% 研发加码赋能智能升级
从产品结构来看,四轴协作机器人收入达9295万元,占比18 9%;复合机器人收入6761万元,占比13 7%;具身智能业务收入2004万元,占比4 1%。公司表示,具身智能领域虽目前收入占比不高,但
壁仞科技2025营收毛利双增 研发投入加速智算项目落地
壁仞科技近日在港交所发布最新财务公告,2025年全年实现收入10 35亿元,同比激增207 2%,展现出强劲的增长势头。公司毛利率提升至53 8%,较上年增长63个基点,达到5 57亿元的毛利水平,
工业元宇宙杀手锏:制造业如何创新驱动“养龙虾”?
智东西作者 云鹏编辑 漠影今年,一方面OpenClaw(龙虾)爆火出圈,各大云厂商、互联网大厂争先接入、适配龙虾。但另一方面,数据隐私安全问题一度冲上热搜,成为全民热议的社会现象。积极来看,“龙虾”
深度剖析Qwen3.5-Omni:全模态感知与生成核心能力详解
3月30日,千问宣布上线Qwen3 5-Omni。Qwen3 5-Omni系列包含Plus、Flash、Light三种尺寸的Instruct版本,支持256k长上下文,模型支持超过10小时的音频输
中国开源OCR项目霸榜GitHub,狂揽7.3万星全球瞩目
西风 发自 凹非寺量子位 | 公众号 QbitAIGitHub OCR项目之王刚刚历史性易主。诞生近40年、统治OCR领域的技术标杆Tesseract OCR,被中国开源拉下王座——百度文心衍生模型
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

