当前位置: 首页
AI
人形机器人实现多语言逼真唇形动作合成

人形机器人实现多语言逼真唇形动作合成

热心网友 时间:2026-01-20
转载

来源:科技日报

美国哥伦比亚大学的科研团队成功设计出一套创新的技术框架,使仿人机器人的面部能够根据音频信号生成逼真的唇部动作,从而实现与人类语音的精准同步。这项技术还展现出较强的泛化能力,能够推广至包括法语、汉语和阿拉伯语在内的多种语言,即便这些语言并未出现在训练数据中。研究团队在最新一期《科学·机器人学》上发表论文指出,这一进展标志着机器人不仅能够执行功能任务,更向着能够进行拟人化交流的目标迈出了重要一步。


日常对话中,如果机器人的唇部动作与其发出的声音不匹配,会显得呆板且不自然。然而,现有机器人普遍缺乏执行精细口部动作的灵活性,能够实时将语音转化为自然唇部运动指令的技术更是寥寥无几。

该研究团队在2024年发表的研究中,曾描述了一种仿人机器人面部能够预测人类的微笑并同时复现该表情的方法。在此基础上,为了更精细化地匹配唇部与声音,团队精心设计了一套学习流程:首先采集机器人唇部运动的视觉数据,用于训练模型并生成运动参考点;随后通过一个名为“面部动作转换器”的模块生成运动指令,使得机器人的唇部能够流畅配合不同词语的发音。他们还专门研制了一种仿人机器人面部结构,采用柔软的硅胶皮肤,配合磁性连接器,具备10个自由度,可驱动复杂的唇部运动。其唇部结构能形成覆盖24个辅音和16个元音的各种口型。

在验证过程中,团队借助ChatGPT生成测试语句,并合成了具有理想唇部动作的视频作为对比基准。结果表明,该方法在5种比较方案中表现最优,其生成的唇部动作与理想视频差异最小。此外,该框架还能为11种不同语音结构的非英语语言生成自然的唇部同步效果。

研究团队推测,这类仿人机器人在教育、老年护理等领域具有应用潜力。但团队也强调,未来的设计工作需要格外谨慎,以防技术被滥用。(科技日报记者 张梦然)

总编辑圈点

如今,AI让虚拟人物动嘴说话早已“不在话下”,然而让机器人做到这点还相当困难。大多数机器人“说话”时并不动嘴,即使动嘴,也只是象征性地一张一合。这次,科研人员试图让机器人拥有人类一般细腻、精准的唇部动作,教它们通过合成视频以“照镜子”的方式学习;还开发了硅胶皮肤,设计了面部机械系统。结果表明,机器人可以“学会”多种语言的唇部动作。不过,研究也不禁让人思考,当机器人真的开口说话,“恐怖谷效应”是会加重还是会减轻?

来源:https://www.163.com/dy/article/KJN36MKO0514R9OJ.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
AI科学家如何应对静态榜单基准主动重塑自动科研评价标准

AI科学家如何应对静态榜单基准主动重塑自动科研评价标准

AI Scientist(人工智能科学家)系统正将“自动化科研”推向全新阶段,但一个更根本的挑战也随之凸显:当评估标准是静态且固定不变时,系统学到的可能并非真正的科学原理,而是“如何在这张特定的考卷上拿到最高分”。 当前真正的风险,或许已不再是“搜索能力不足”,而是“过于擅长刷静态评测分数”了。 静

时间:2026-05-18 13:53
寒武纪原生适配DeepSeek V4 国产AI芯片与模型强强联合

寒武纪原生适配DeepSeek V4 国产AI芯片与模型强强联合

今天上午,备受业界瞩目的国产大模型标杆——DeepSeek-V4,正式面向全球发布。 在模型发布的第一时间,基于寒武纪智能芯片与vLLM高性能推理框架的全面适配工作即告完成,完整覆盖了此次发布的285B参数DeepSeek-V4-flash与1 6T参数DeepSeek-V4-pro两大版本。这标志

时间:2026-05-18 13:53
DeepSeek V4 API正式上线 双版本支持百万上下文

DeepSeek V4 API正式上线 双版本支持百万上下文

百万字上下文,从此成为普惠标配。 万众期待之下,DeepSeek V4预览版,终于揭开了面纱。两个版本——V4-Pro与V4-Flash,全系标配百万字(1M)超长上下文,并同步开源了模型权重与技术报告。 五一假期前的这两天,大模型领域再次迎来密集发布潮。 就在前一天,腾讯混元Hy3预览版亮相,凭借

时间:2026-05-18 13:53
腾讯混元Hy3预览版实测体验不追榜单专注实用能力提升

腾讯混元Hy3预览版实测体验不追榜单专注实用能力提升

这周国产大模型领域可谓热闹非凡,阿里Qwen 3 6 Max、月之暗面Kimi 2 6、DeepSeek V4等新品接连登场,箭在弦上。在这波发布潮中,腾讯的混元Hy3 preview也于昨日正式亮相。值得注意的是,这是由腾讯首席AI科学家姚顺雨主导的第一代模型,其定位从一开始就非常清晰:不追求榜单

时间:2026-05-18 13:53
OpenAI创始人揭秘GPT5.5智能溢价与下一代模型规划

OpenAI创始人揭秘GPT5.5智能溢价与下一代模型规划

今日凌晨,人工智能领域迎来又一里程碑事件。OpenAI正式推出备受期待的GPT-5 5模型,它不仅重新夺回“全球最强代码生成模型”的称号,更在多项核心基准测试中展现出碾压性优势。此次发布远非简单的版本更新,其背后反映的战略转向与行业格局演变,更值得我们深入探讨。 其性能数据确实令人瞩目。有幸提前体验

时间:2026-05-18 13:52
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程