找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 32|回复: 0

[科技新闻] 融资5.6亿的AI语音新星被谷歌盯上,核心团队入职DeepMind

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-23 20:30 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
智东西(公众号:zhidxcom)
编译|万贵霞
编辑|云鹏
智东西1月23日消息,谷歌正在通过“引入团队+技术授权”的方式,加速补齐Gemini在语音与情感理解上的短板。
据TechCrunch与美国《连线》昨日报道,谷歌旗下DeepMind已与AI语音初创公司Hume AI达成授权合作协议。Hume AI创始人兼CEO Alan Cowen将与约7名核心工程师加入DeepMind,直接参与Gemini语音与情感智能的研发。
这笔交易并非整体收购,根据Hume AI新任CEO Andrew Ettinger的说法,谷歌获得了Hume AI全部知识产权的非独家使用权,相关技术将被整合进谷歌的模型研发流程,而Hume AI公司主体仍将独立运营,并继续向其他AI实验室提供服务。
Hume AI的核心优势在于“情感智能”语音模型,该公司专注于通过语音信号识别用户情绪与心理状态。2024年其推出“共情语音接口”(Empathetic Voice Interface),并已累计融资约8000万美元(约合人民币5.6亿元),预计今年营收可达1亿美元(约合人民币7亿元)
谷歌此次引入其核心团队,被视为在语音体验上正面迎战ChatGPT语音模式的关键一步。
一、核心团队加入DeepMind,主打“情感智能”的语音模型

据报道,Hume AI创始人兼前CEO Alan Cowen将与多名工程师加入谷歌DeepMind,主要任务是帮助谷歌将语音与情感智能整合进其前沿模型,提升Gemini自然对话情绪理解方面的能力。
1.webp


▲Hume AI创始人Alan Cowen(图源:Alan Cowen个人网站)
Cowen本人拥有心理学博士背景,这也被认为是Hume在“情感建模”方向上的重要优势。
此次交易的具体金额尚未披露。Hume AI新任CEO、投资人兼科技高管Andrew Ettinger告诉TechCrunch记者,谷歌获得了Hume AI全部知识产权的非独家使用权,相关技术将被整合进谷歌的研发流程,但公司并未被整体出售
2.webp


▲Andrew Ettinger继任Hume AI CEO的消息(图源:领英Andrew Ettinger个人主页)
Hume AI将继续对外提供技术服务,并计划在未来几个月内发布新模型。Ettinger预计,Hume AI有望在今年实现约1亿美元的营收目标。
Hume AI成立以来,始终聚焦一个相对细分但潜力巨大的方向——理解人类语音中的情绪与心理状态
2024年,Hume AI推出“共情语音接口”,其核心能力在于通过语音信号判断用户的情绪变化,并据此调整回应方式。与传统语音助手侧重指令识别不同,Hume的模型试图解决“用户当下处于什么状态”这一问题。
3.webp


▲Hume AI官网页面(图源:Hume AI官网)
WIRED报道中提到,Hume AI在模型训练过程中投入了数百万美元,通过专家标注大量真实对话中的情绪线索,使模型能更精细地区分语气、语调与情绪变化。
PitchBook数据显示,Hume AI目前累计融资约8000万美元,投资方包括AEGIS Ventures等机构。
二、谷歌补齐Gemini语音短板,语音赛道全面升温

对谷歌而言,引入Hume AI团队并不意外。近年来,谷歌持续推进Gemini Live功能,允许用户以语音方式与AI进行连续对话。
上个月,谷歌还发布了面向Live API的原生音频模型,强调其在复杂流程处理方面的能力。但在“自然度”和“情感感知”层面,Gemini仍面临来自OpenAI等对手的压力。
4.webp


▲谷歌Gemini Live API概览(图源:谷歌Cloud)
在此背景下,Hume AI团队被视为一个“即插即用”的补强方案。多位匿名消息人士向WIRED透露,Cowen及其团队将在谷歌内部,专注于将情感智能深度嵌入新一代模型
Hume AI并非孤例。过去一年,语音能力正在成为AI厂商投入资源最多的方向之一。
本月初,AI语音生成公司ElevenLabs披露,其年度经常性收入(ARR)已突破3.3亿美元(约合人民币23.1亿元),显示出市场对高质量语音技术的真实需求。
与此同时,OpenAI被曝正在与前苹果设计师Jony Ive团队合作开发一款主打音频功能的个人设备,为今年发布做准备。近期泄露的消息说,该设备可能是一款耳塞。
Meta同样在加速布局。去年,Meta收购语音初创公司Play AI,其Ray-Ban智能眼镜已越来越依赖语音输入,在嘈杂环境下实现通话、信息与多媒体控制。投资人Vanessa Larco直言:“在可穿戴设备上,语音几乎是唯一可行的输入方式。”
5.webp


Ray-Ban智能眼镜(图源:Reddit)
结语:“授权+挖人”成为常态,语音成为AI的“下一层接口”

值得注意的是,Hume AI的交易再次触及一个监管敏感问题:“收购式招聘”。与直接并购公司不同,大型科技公司通过引入初创团队、获取技术授权,往往可以绕开传统并购所需的反垄断审查。
类似案例已多次出现,谷歌此前以授权方式引入Character AI相关技术;微软招募了Inflection团队;亚马逊引入Adept核心人员;Meta则挖走了Scale AI的CEO。
从当前趋势来看,语音正在演变为AI与人类交互的核心入口。对科技公司而言,理解“说了什么”只是第一步,更重要的是理解“为什么这样说”“说话时的情绪状态是什么”。
随着语音、情感与多模态能力进一步融合,AI的竞争焦点正在从模型参数规模,转向真实交互体验的细节层面。
来源:《连线》杂志、TechCrunch
您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-1-24 01:05 , Processed in 0.127374 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表