融资5.6亿AI语音新星被谷歌收购,核心团队入职DeepMind

智东西
编译|万贵霞
编辑|云鹏
智东西1月23日消息,谷歌正在通过“引入团队+技术授权”的方式,加速补齐Gemini在语音与情感理解上的短板。
据TechCrunch与美国《连线》昨日报道,谷歌旗下DeepMind已与AI语音初创公司Hume AI达成授权合作协议。Hume AI创始人兼CEOAlan Cowen将与约7名核心工程师加入DeepMind,直接参与Gemini语音与情感智能的研发。
这笔交易并非整体收购,根据Hume AI新任CEO Andrew Ettinger的说法,谷歌获得了Hume AI全部知识产权的非独家使用权,相关技术将被整合进谷歌的模型研发流程,而Hume AI公司主体仍将独立运营,并继续向其他AI实验室提供服务。
Hume AI的核心优势在于“情感智能”语音模型,该公司专注于通过语音信号识别用户情绪与心理状态。2024年其推出“共情语音接口”(Empathetic Voice Interface),并已累计融资约8000万美元(约合人民币5.6亿元),预计今年营收可达1亿美元(约合人民币7亿元)。
谷歌此次引入其核心团队,被视为在语音体验上正面迎战ChatGPT语音模式的关键一步。
一、核心团队加入DeepMind,主打“情感智能”的语音模型
据报道,Hume AI创始人兼前CEOAlan Cowen将与多名工程师加入谷歌DeepMind,主要任务是帮助谷歌将语音与情感智能整合进其前沿模型,提升Gemini在自然对话和情绪理解方面的能力。

▲Hume AI创始人Alan Cowen(图源:Alan Cowen个人 )
Cowen本人拥有心理学博士背景,这也被认为是Hume在“情感建模”方向上的重要优势。
此次交易的具体金额尚未披露。Hume AI新任CEO、投资人兼科技高管Andrew Ettinger告诉TechCrunch记者,谷歌获得了Hume AI全部知识产权的非独家使用权,相关技术将被整合进谷歌的研发流程,但公司并未被整体出售。

▲Andrew Ettinger继任Hume AI CEO的消息(图源:领英Andrew Ettinger个人主页)
Hume AI将继续对外提供技术服务,并计划在未来几个月内发布新模型。Ettinger预计,Hume AI有望在今年实现约1亿美元的营收目标。
Hume AI成立以来,始终聚焦一个相对细分但潜力巨大的方向——理解人类语音中的情绪与心理状态。
2024年,Hume AI推出“共情语音接口”,其核心能力在于通过语音信号判断用户的情绪变化,并据此调整回应方式。与传统语音助手侧重指令识别不同,Hume的模型试图解决“用户当下处于什么状态”这一问题。

▲Hume AI正式页面(图源:Hume AI正式)
WIRED报道中提到,Hume AI在模型训练过程中投入了数百万美元,通过专家标注大量真实对话中的情绪线索,使模型能更精细地区分语气、语调与情绪变化。
PitchBook数据显示,Hume AI目前累计融资约8000万美元,投资方包括AEGIS Ventures等机构。
二、谷歌补齐Gemini语音短板,语音赛道全面升温
对谷歌而言,引入Hume AI团队并不意外。近年来,谷歌持续推进Gemini Live功能,允许用户以语音方式与AI进行连续对话。
上个月,谷歌还发布了面向Live API的原生音频模型,强调其在复杂流程处理方面的能力。但在“自然度”和“情感感知”层面,Gemini仍面临来自OpenAI等对手的压力。

▲谷歌Gemini Live API概览(图源:谷歌Cloud)
在此背景下,Hume AI团队被视为一个“即插即用”的补强方案。多位匿名消息人士向WIRED透露,Cowen及其团队将在谷歌内部,专注于将情感智能深度嵌入新一代模型。
Hume AI并非孤例。过去一年,语音能力正在成为AI厂商投入资源最多的方向之一。
本月初,AI语音生成公司ElevenLabs披露,其年度经常性收入(ARR)已突破3.3亿美元(约合人民币23.1亿元),显示出市场对高质量语音技术的真实需求。
与此同时,OpenAI被曝正在与前苹果设计师Jony Ive团队合作开发一款主打音频功能的个人设备,为今年发布做准备。近期泄露的消息说,该设备可能是一款耳塞。
Meta同样在加速布局。去年,Meta收购语音初创公司Play AI,其Ray-Ban智能眼镜已越来越依赖语音输入,在嘈杂环境下实现通话、信息与多媒体控制。投资人Vanessa Larco直言:“在可穿戴设备上,语音几乎是唯一可行的输入方式。”

▲Ray-Ban智能眼镜(图源:Reddit)
结语:“授权+挖人”成为常态,语音成为AI的“下一层接口”
值得注意的是,Hume AI的交易再次触及一个监管敏感问题:“收购式招聘”。与直接并购公司不同,大型科技公司通过引入初创团队、获取技术授权,往往可以绕开传统并购所需的反垄断审查。
类似案例已多次出现,谷歌此前以授权方式引入Character AI相关技术;微软招募了Inflection团队;亚马逊引入Adept核心人员;Meta则挖走了Scale AI的CEO。
从当前趋势来看,语音正在演变为AI与人类交互的核心入口。对科技公司而言,理解“说了什么”只是第一步,更重要的是理解“为什么这样说”“说话时的情绪状态是什么”。
随着语音、情感与多模态能力进一步融合,AI的竞争焦点正在从模型参数规模,转向真实交互体验的细节层面。
来源:《连线》杂志、TechCrunch
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
吉利发布首款原生Robotaxi Eva Cab 千里科技AI全栈赋能
4月24日,在备受瞩目的第十九届北京国际汽车展览会上,吉利汽车集团正式揭晓了其重磅新品——中国首款原生正向开发的Robotaxi(自动驾驶出租车)原型车Eva Cab。这款车型不仅是前沿概念的展示,更是一款具备完整落地潜力的产品,其核心驱动力源自千里科技提供的全栈式Robotaxi解决方案。该方案深
Akamai与NVIDIA合作推动分布式AI推理从内容分发迈向智能分发
自2010年在中国设立团队以来,Akamai已深耕本地市场十六年。在服务中国企业出海的漫长征程中,其团队展现出卓越的稳定性与战略专注度。 回顾NVIDIA GTC 2026,其CEO黄仁勋曾预言,AI推理的规模将迅速达到训练负载的数十亿倍。进入2026年,行业共识已然明确:AI大模型竞争的焦点,正从
跑车品牌宣布暂停全面电动化转型计划
莲花集团发布“Focus2030”战略,宣布调整全面电动化路线,将同步发展燃油、混动及纯电车型,直至市场成熟。未来将推出燃油跑车Emira420,并于2028年上市搭载V8混动系统的超跑Type135,战略重心转向追求更高利润率。
大语言模型如何实现类人对话与思考的智能原理
我们每天都在与大语言模型(LLM)对话,一个直观的感受是,它们似乎真的“懂”我们在说什么,尽管偶尔也会“胡言乱语”。观察它们输出的思维链,那种逐步推理的语言痕迹,更让人觉得它们仿佛具备了某种思考能力。 这引出了一个核心问题:LLM的语言和思考能力,究竟是一种怎样的能力?这些能力又是如何通过其底层的实
ICML 2026论文解读:TGO标量反馈对齐视觉生成模型
生成模型的偏好对齐,可能正在进入一个新的阶段。 过去几年,大模型在训练后优化(post-training)最主流的方法,是让模型从“成对偏好”中学习。无论是经典的RLHF,还是后来更简洁的DPO,都绕不开同一个前提:反馈必须成对出现。 但在真实世界里,反馈往往不是这样。用户给一个结果打分、系统记录一
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

