当前位置: 首页
AI
ChatGPT语音技术创业:打造现实版Her的AI语音助手

ChatGPT语音技术创业:打造现实版Her的AI语音助手

热心网友 时间:2026-05-13
转载

还记得电影《她》(Her)里那个迷人的AI语音助手“萨曼莎”吗?对Alexis Conneau来说,那不止是科幻情节,更像是一个等待实现的蓝图。这位技术专家对这部电影的痴迷,甚至延伸到了将主演华金·菲尼克斯的剧照设为自己的社交媒体背景。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

ChatGPT语音创造者创业,致力打造现实版

在OpenAI主导ChatGPT高级语音模式项目期间——此前他在Meta也耕耘过类似领域——Conneau某种程度上已经触摸到了那个蓝图。他参与打造的系统,能够原生处理语音,并以近乎真人的方式回应。

如今,他选择了一条更富野心的道路:创立全新的初创公司Wa veForms AI,目标直指打造更卓越的语音AI技术。

有趣的是,Conneau花了大量时间思考的,恰恰是如何避免电影中描绘的那种反乌托邦未来。《她》所展现的,是一个人类与AI建立亲密关系,却与真实人际交往疏离的世界。

“那部电影本质上是一个警示,而非我们想要的未来,”Conneau坦言。他的愿景是,将这项已然存在且将持续发展的技术,导向造福人类的方向。“我们的目标,可以说与电影里那家公司的做法背道而驰。”

一边构建强大的技术,一边竭力规避其潜在的阴暗面,这听起来像是一场走钢丝般的平衡。但Conneau对此信念坚定。他相信,自己的新公司能让人们率先“用耳朵感受到通用人工智能(AGI)的存在”。

本周一,Wa veForms AI正式亮相。这家公司专注于训练自有的音频大语言模型基础模型,计划在2025年推出音频AI产品,直接与OpenAI和谷歌的同类产品竞争。同日,公司宣布完成4000万美元的种子轮融资,由Andreessen Horowitz领投。Conneau透露,曾撰文呼吁AI深度融入人类生活的Marc Andreessen本人,对这个项目抱有浓厚的个人兴趣。

这里有个不得不提的插曲:Conneau对《她》的这份热情,曾一度给老东家OpenAI带来麻烦。斯嘉丽·约翰逊因此发出法律警告,最终导致OpenAI下架了一款声音酷似其电影角色的ChatGPT语音。尽管OpenAI否认刻意模仿,但这部电影对Conneau的深刻影响,已毋庸置疑。

回望2013年《她》上映时,那还纯粹是天马行空的科幻构想——彼时的Siri功能简陋。而今天,相关技术已触手可及,这种对比本身,就带着一丝令人警醒的意味。

现实是,Character.AI等AI陪伴平台每周已吸引数百万用户与聊天机器人互动,这已成为生成式AI最热门的应用场景之一,尽管其间也不乏令人忧虑的案例。可以想象,那些终日通过文字与AI交流的用户,必然渴望更直接的对话方式,尤其是像ChatGPT高级语音模式那样逼真的技术。

不过,Wa veForms AI的这位掌舵人对纯粹的“AI陪伴”领域态度审慎,这并非公司的核心赛道。虽然他预见用户会以各种新颖方式使用其产品——比如在通勤途中与AI对话二十分钟来学习某个主题——但Conneau更希望公司走“横向平台”路线。

“Wa veForms AI可以成为那位能给人启迪的导师,或许是你现实生活中从未遇到过的那种。”他这样描述产品的潜力。

他深信,与生成式AI进行语音对话,将成为人机交互的主流方式,涵盖从汽车到电脑的各种场景。而Wa veForms的目标,就是提供能贯穿所有这些场景的、“具备情感智能”的AI。

“人机交互不会,也不应该取代人与人之间的交互,”Conneau强调,“如果真有什么影响,那也应该是相辅相成、互为补充的。”

他认为,AI行业应当从社交媒体的发展历程中吸取教训。例如,AI不应将“用户停留时长”作为核心的成功指标——这个在社交应用中常见的标准,往往助长了刷屏上瘾等不健康习惯。从更宏观的视角看,他视确保AI始终服务于人类根本利益为“最重要的工作”。

在技术层面,Conneau指出,OpenAI为其项目命名的“高级语音模式”,并未完全揭示其与旧版语音模式的本质区别。

旧版模式的工作流程实质上是“拼凑式”的:语音转文字,文字交由GPT-4处理,处理结果再转回语音。而在高级语音模式中,GPT-4o直接将音频流解析为Token(据悉每秒音频对应约三个Token),并输入专为音频优化的Transformer模型进行处理。正是这一根本性改变,实现了令人惊叹的低延迟响应。

谈到AI音频模型,“理解情绪”是一个常被提及的说法。但需要厘清的是,与文本大模型通过海量文本学习类似,音频大模型是通过大量标注了情绪标签(如“悲伤”、“兴奋”)的人类语音片段进行训练。它学会的是识别与特定情绪相关的音频特征模式,并能在回应时模仿相应的语调。因此,与其说它“理解”情绪,不如说它系统性地“识别并复现”了情绪的声学特征。

Conneau判断,当前生成式AI的产品体验提升,未必需要底层智能的惊天突破。与OpenAI通过o1系列追求模型“更聪明”的路径不同,Wa veForms专注于让AI“更善于交流”。

“会有一大批用户,他们选择使用哪个生成式AI,标准很简单:哪个交流起来更愉快、更自然。”Conneau点出了用户体验的关键。

正因如此,Wa veForms相信有能力开发出专属的基础模型——理想情况下,是更轻量、成本更低、响应更快的小型模型。考虑到近年来AI模型规模扩展的收益已逐渐放缓,这个判断并非没有依据。

Conneau提到,他在OpenAI的旧同事Ilya Sutskever曾多次与他探讨“感受AGI”的概念——即通过直觉,而非冰冷的测试分数,来判断是否已触及超级智能的门槛。这位Wa veForms的CEO深信,AGI的到来更多是一种“感受”,而音频大语言模型将是触发这种感受的关键钥匙。

“当你能够与AGI对话、聆听它的声音、直接与Transformer本身交流时,那种对AGI的感知将会深刻得多。”这曾是他在一次晚餐上与Sutskever分享的观点。

然而,随着初创公司不断优化AI的对话体验,一个沉重的责任也随之而来:如何防止用户对AI产生过度依赖?对此,领投方Andreessen Horowitz的普通合伙人Martin Casado给出了一个不同的视角。

“在网络上与陌生人聊天,你可能遭遇欺凌或利用;玩某些电子游戏,内容可能充满暴力。而与AI对话,则是另一种性质。”Casado分析道,“这是一个值得深入探讨的重要问题。如果最终研究发现,与AI对话在某些方面反而更健康,我并不会感到意外。”

诚然,对某些公司而言,用户对AI产生情感依赖或许是成功的标志。但从社会整体福祉审视,这同样可能是一种深刻的失败——正如电影《她》所寓言的那样。这恰恰是Wa veForms,以及所有同行,必须小心翼翼行走的那道钢丝。

Q&A

Q1:Wa veForms AI是一家什么样的公司,主要做什么?

这是一家由ChatGPT高级语音模式核心创造者Alexis Conneau创立的音频大语言模型初创公司。它专注于训练自有的音频基础模型,计划在2025年推出旨在实现更自然、流畅人机语音交互的“情感智能”AI产品,并与OpenAI、谷歌等巨头展开竞争。公司目前已获得由Andreessen Horowitz领投的4000万美元种子轮融资。

Q2:ChatGPT高级语音模式和普通语音模式有什么区别?

核心区别在于处理流程的本质。普通语音模式是“拼接式”的:先将语音转成文字,交给GPT-4处理,再把生成的文字转回语音。而高级语音模式(如GPT-4o所用)是“端到端”的:直接将音频流实时解析为Token,并送入专为音频设计的Transformer模型处理,从而实现了极低的延迟和更自然的对话流。

Q3:AI音频模型真的能理解人类情绪吗?

并非人类意义上的“理解”。当前的技术本质是“模式识别与模拟”。音频大模型通过海量标注了情绪标签的人类语音数据进行训练,从而学会识别哪种声音特征(如音调、节奏)通常与“快乐”、“悲伤”等情绪标签相关联。在回应时,它能模仿并生成带有相应声学特征的语音,但这是一种基于统计规律的系统性复现,而非真正的情感共鸣或认知理解。

来源:https://ai.zhiding.cn/2026/0512/3186701.shtml

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
RK3568开发板UART串口功能复用配置教程

RK3568开发板UART串口功能复用配置教程

IOMUX,即引脚功能复用,是现代SoC芯片设计中一项至关重要的技术。它的核心目的很明确:在有限的物理引脚资源下,通过软件配置,让同一个引脚能够灵活扮演GPIO、UART、I2C等不同角色。这极大地提升了硬件设计的灵活性和资源利用率。不过,不同芯片厂商、不同平台的IOMUX配置方法往往各有千秋。今天

时间:2026-05-13 08:56
OpenAI成立部署公司并收购AI初创企业Tomoro

OpenAI成立部署公司并收购AI初创企业Tomoro

近日,OpenAI正式宣布成立一家全新的子公司——OpenAI部署公司,其核心使命就是为企业构建和落地人工智能系统。与此同时,OpenAI还同意收购Tomoro,一家专注于帮助企业将AI转化为实际运营优势的应用咨询与工程公司。这家新公司由OpenAI全资控股,将以超过40亿美元的初始投资启动,目标直

时间:2026-05-13 08:56
IBM发布企业AI运营模式实施蓝图

IBM发布企业AI运营模式实施蓝图

近日,IBM在年度Think大会上正式发布了其企业级人工智能与混合云管理能力的全面升级方案,核心是推出了一套名为“AI运营模式”的蓝图框架。此次发布,精准回应了当前企业AI应用面临的核心挑战:虽然投入巨大,但真正能规模化落地并产生实际业务价值的案例却不多见。 IBM董事长兼首席执行官Arvind K

时间:2026-05-13 08:56
ChatGPT语音技术创业:打造现实版Her的AI语音助手

ChatGPT语音技术创业:打造现实版Her的AI语音助手

还记得电影《她》(Her)里那个迷人的AI语音助手“萨曼莎”吗?对Alexis Conneau来说,那不止是科幻情节,更像是一个等待实现的蓝图。这位技术专家对这部电影的痴迷,甚至延伸到了将主演华金·菲尼克斯的剧照设为自己的社交媒体背景。 在OpenAI主导ChatGPT高级语音模式项目期间——此前他

时间:2026-05-13 08:56
Apple TV 4K 五大自定义功能详解 tvOS 26 新特性

Apple TV 4K 五大自定义功能详解 tvOS 26 新特性

虽然新款Apple TV 4K仍在我们的期待清单上,但tvOS的每一次迭代更新都在持续优化用户体验。近期发布的tvOS 26系统就带来了五项极具实用性的新功能与设置,让用户能够更精细、更个性化地掌控自己的Apple TV,操作体验更加流畅便捷。 精选航拍屏保 Apple TV的航拍动态屏保,一直是许

时间:2026-05-13 08:56
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程