人工智能技术加速无声语言研究突破
基于肌电图传感器捕捉面部与喉部肌肉活动,训练出能识别未说出话语的“沉默语音”模型。新方法使句子转录单词错误率降低64%,绝对错误率仅4%。研究团队开源近20小时面部肌电数据集,该论文获自然语言处理经验方法活动最佳论文奖。
人工智能技术的持续精进与深度开发,无疑是推动AI真正落地应用的核心所在。然而,除了那些与日常生活紧密相关的应用场景,一个更值得关注的趋势正在悄然兴起——回应少数群体的需求,正成为AI发展的必然方向。

最近,加州大学伯克利分校的研究人员完成了一项颇具创新性的工作:他们利用肌电图(EMG)传感器捕捉面部与喉部的肌肉活动,并借助这些无声的肌肉信号来训练AI。该系统的研究核心,是一个名为“沉默语音”的模型——简单来说,它能够检测到那些你想说但尚未说出口的话语。
研究团队认为,这种方法可以为无法发声的人群带来大量实用的辅助工具。同时,它也能让现有的AI语音助手或其他语音命令设备,具备“读懂默语”的能力。
理想虽然美好,但实现过程并不简单。首先,在数据采集阶段,实验者需要在脸上贴8个贴片,每个贴片都是一个监测肌肉变化的传感器。接着,研究人员需要先录制一段实验者的有声语音,并将这段语音与肌电图数据进行一一对应——即搞清楚“哪块肌肉活动一下,对应的是哪个音”。然后,利用WaveNet解码器生成音频语音预测。在记录数据的过程中,还需要再录制一段“对口型”的肌电图,但这次并不需要发声,也就是真正的“沉默语音”。
最终结果令人惊艳。与基于发声肌电数据的基线模型相比,新方法在句子转录的单词错误率下降了64%,绝对错误率仅为4%,相比基线减少了95%。此外,为促进该领域的研究,团队还开源了一个近20小时的面部肌电数据集。
这篇题为《无声语音的数字发声》的研究论文,在近日举行的自然语言处理经验方法(EMNLP)会议上,荣获了最佳论文奖。
研究小组在论文中写道:“数字化无声语音具有广泛的潜在应用。”例如,它可以打造一种类似蓝牙耳机的设备,让你在不打扰旁人的情况下打电话。更直观的场景是:在环境噪音大得听不清人话的地方,或者必须在保持安静的场合——这种设备的独特价值,便彻底凸显出来了。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:人工智能技术加速无声语言研究突破要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点LucidaAI是一款面向企业的AI英语口语教练,通过实时对话提供发音、语法、词汇和流利度的个性化反馈。采用端到端加密并支持合规定制,定价策略注重普及化,旨在以低成本提升团队英语沟通能力。
Screenshot2Code工具能够从截图中自动识别代码,并将其转换为可直接运行的代码。支持Python、HTML及API接口信息提取,帮助开发者快速复用他人分享的代码片段,从而显著提升工作效率。这个工具极大简化了代码复用过程。
SpeakStruct通过可自定义模板将语音转换为结构化数据,适用于会议记录、客户通话等场景。核心功能包括自定义模板、准确转录和随处捕捉,使口语信息直接转化为可用的数据资产。
IzzyAI是一款AI驱动的语音治疗应用,提供全天候服务。通过智能治疗师头像互动,系统评估并治疗五种常见语音语言障碍,融合语音与面部识别技术给予实时反馈。内置综合评估、个性化练习、进展报告及支持性社区,提升治疗效果。
- 日榜
- 周榜
- 月榜
热点快看
