当前位置: 首页
AI资讯
机器人通过视频学习,实现逼真嘴部动作生成

机器人通过视频学习,实现逼真嘴部动作生成

热心网友 时间:2026-01-19
转载

1月19日,哥伦比亚大学的一间工程实验室里,一台人形机器人正以令人惊叹的逼真度活动着嘴唇。这项由创意机器实验室主导的研究,首次实现了自主系统仅通过视觉学习,就掌握了用于说话和唱歌的自然唇部动作。

不再僵硬:机器人靠看视频学会超逼真嘴部动作

据了解,这一成果攻克了人形机器人设计领域的一大核心难题:面部动作的违和感。尽管机器人在行走、抓取和整体灵活性方面已取得重大突破,但面部表情,尤其是与语言相关的唇部动作,仍然是一个尚未攻克的领域。

即便是顶尖的人形机器人,其嘴部动作也往往显得僵硬、如同木偶一般,难以营造出栩栩如生的效果。人类对这类细微的违和感极为敏感,这种心理现象正是研究人员所说的“恐怖谷效应”的成因之一。

该研究团队采用了一种全新的学习方法,机器人没有遵循为每个元音或音素编写的固定规则,而是通过实验和模仿来学习唇部力学。其面部由覆盖在26个微型马达上的柔性合成皮肤构成,能够复刻出语言表达背后细微的肌肉运动变化。

研究人员首先让机器人面对镜子,使其观察自身数千种随机表情。通过这一过程,机器人掌握了马达运动与不同面部形态之间的对应关系,研究人员将这一阶段称为“自我探索期”。

在理解自身运动机制后,机器人开始学习人类的语言表达。它通过分析数小时的人类说话、唱歌视频素材,建立起唇部动作与声音之间的统计学关联。这套名为“视觉-动作转换模型”的训练流程,能让系统直接将音频转化为同步的马达控制指令,无需依赖明确的语音编程,即可实现逼真的唇部动作。

测试结果显示,这款机器人能够配合多种语言完成唇部同步运动,甚至还能演唱其人工智能原创专辑《Hello World》中的曲目。尽管目前的动作仍非尽善尽美,如“B”这类爆破辅音,以及“W”这类圆唇音的模仿,仍是待解难题,但进步效果显而易见。创意机器实验室主任、机械工程学教授霍德·利普森表示:“它与人类的互动越频繁,表现就会越出色。”

这项突破的意义远超娱乐层面,更关乎人机交流的深度。能够传递细腻情感的机器人面部,或将从根本上改变人机互动的方式。研究负责人胡宇航指出,将逼真的面部动作与对话式人工智能相结合,可增强人机交互的情感共鸣,让“彼此理解”的错觉更加真切。假以时日,随着模型学习到更丰富、更长的对话语境,这些微表情动作也将具备更强的情境感知能力。

利普森认为,这类研究填补了机器人技术中一个长期被忽视的维度。他解释道,大多数人形机器人研究都侧重于肢体机械性能,如腿部、手部动作与移动能力,却忽视了面部情感表达。然而,对于应用于教育、医疗和养老领域的机器人而言,逼真的面部表情与实用的肢体灵活性同等重要。随着全球人形机器人量产进程加快,面部动作的逼真度或将成为决定公众接受度的关键因素。

胡宇航表示:“我们正濒临跨越恐怖谷的临界点。未来的人形机器人,必然会拥有灵动自然的面部表情。”

不过,胡宇航与利普森均承认,这项技术背后潜藏着复杂的心理学与伦理学挑战。随着机器人变得越来越通人性,人机之间的情感边界可能会逐渐模糊。长期致力于机器人共情能力研究的利普森呼吁保持审慎:“我们必须循序渐进、谨慎探索,才能在收获技术红利的同时,将潜在风险降至最低。”

该研究成果已发表于相关期刊。

来源:https://www.ithome.com/0/914/559.htm

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
蚂蚁开源万亿参数思考模型Ring-2.5-1T详解

蚂蚁开源万亿参数思考模型Ring-2.5-1T详解

Ring-2 5-1T是什么 在当今大模型技术激烈竞争的赛道上,追求更长的上下文处理能力和更强大的深度推理性能已成为核心焦点。近日,蚂蚁集团旗下的inclusionAI团队重磅开源了Ring-2 5-1T模型,这是一个参数规模高达万亿级别的混合线性思考大语言模型。该模型基于先进的Ling 2 5架构

时间:2026-05-23 22:59
Teamily AI:原生智能通讯平台,开启人机协作新纪元

Teamily AI:原生智能通讯平台,开启人机协作新纪元

Teamily AI是什么 想象一下,你手机里的微信群聊,除了家人朋友同事,还多了一位特殊的“成员”——它从不缺席,能瞬间理解所有对话,还能帮你处理图片、视频甚至写报告。这不再是科幻场景,而是南加州大学团队带来的现实:全球首个AI原生即时通讯平台,Teamily AI。 它的核心思路很巧妙:不再把A

时间:2026-05-23 22:58
字节跳动Seedream 5.0 Lite AI图像生成模型详解

字节跳动Seedream 5.0 Lite AI图像生成模型详解

Seedream 5 0 Lite是什么 在AI图像生成技术飞速发展的今天,字节跳动Seed团队正式推出了其重磅升级产品——Seedream 5 0 Lite。作为Seedream 4 0的迭代版本,这款全新的AI绘画模型在文本理解、视觉推理与图像生成三大核心维度上实现了显著突破。 该模型采用了创新

时间:2026-05-23 22:58
WorkAny Bot云端AI助手基于OpenClaw框架详解

WorkAny Bot云端AI助手基于OpenClaw框架详解

WorkAny Bot是什么 想象一下,有一个永不掉线的智能助手,它住在云端,随时准备响应你的召唤。这就是WorkAny Bot——一个基于OpenClaw AI框架构建的云端智能体。它的核心价值在于,将强大的AI能力变成一项即开即用的服务。 你可以把它理解为你私人的、功能齐全的AI工作站。它支持接

时间:2026-05-23 22:58
KiloClaw推出全托管云服务OpenClaw

KiloClaw推出全托管云服务OpenClaw

KiloClaw是什么 想快速拥有一个能接入几十个聊天平台、还能执行系统命令的AI助手,但一听到要自己部署维护就头疼?这确实是很多开发者和团队面临的现实困境。OpenClaw这个开源项目功能强大,支持50多种平台,可真要自己从零搭建,光是配置环境可能就得折腾半小时以上,后续的更新、监控更是麻烦事。

时间:2026-05-23 22:57
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程