苹果联合人大发布VSSFlow模型:无声视频AI生成音效与配音
2月10日消息,科技媒体9to5Mac近日发布文章,透露苹果公司已联合中国人大团队,成功推出了名为VSSFlow的新型AI模型。这项技术突破了传统音频生成的局限,能够在单一框架下,从无声视频中同时合成出逼真的环境音效与清晰的人声语音。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
该模型的核心在于其“化静为动”的能力,可对无声视频数据进行端到端处理。基于统一的架构,系统能同步生成与画面高度契合的环境声场,同时输出精准自然的语音对白。这一成果不仅解决了过往音频模型功能单一的问题,其生成质量更是达到了业界领先水平。

根据博文介绍,在VSSFlow问世之前,业内模型往往存在明显的功能偏向:专攻视频转语音的模型难以输出清晰人声,而基于文本的语音合成模型又无法有效处理复杂的环境噪音。
传统的解决方案通常需要将两项任务分阶段进行训练,这不仅增加了系统复杂度,还常因任务冲突而导致性能下降。VSSFlow则另辟蹊径,采用了10层的架构设计,并引入“流匹配”技术,让模型能够自主学习如何从随机噪声中,精准重构出目标语音信号。

研究团队在训练过程中发现了一个惊喜的现象:联合训练不仅没有引发任务干扰,反而产生了“互助效应”。具体来说,语音数据的训练提升了音效生成的质量,而音效数据的加入也优化了语音的最终表现。
为了实现这一效果,团队向模型输入了混合数据,其中包含带有环境音的视频、配有字幕的讲话视频,以及纯文本转语音数据。通过利用合成样本微调模型,使其学会了如何同时输出背景音与人声。
在实际运行中,VSSFlow以每秒10帧的频率从视频中提取视觉线索,从而塑造出匹配的环境音效,同时依据文本脚本精准引导语音生成。

测试数据显示,该模型在多项关键指标上均优于那些专为单一任务设计的竞品模型。目前,研究团队已在GitHub上开源了VSSFlow的相关代码,并正在推进模型权重公开以及在线推理演示的开发工作。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Nature重磅:AI生成论文在顶会通过率55%,单篇成本仅15美元
新智元报道编辑:元宇【新智元导读】刚刚,Nature盖章AI独立科研时代!全新Scaling Law显现,人类死守的学术铁王座,正发生不可逆的转移。一篇长达数十页的学术论文,在人类设定研究主题和实验
CMU首创无毒AutoGEO方案,破解GEO投毒产业链焦虑
新智元报道编辑:LRST【新智元导读】ChatGPT上线广告、315曝光GEO投毒产业链,AI搜索商业化的隐忧接连浮出水面。龙虾热背后,3000元就能让AI搜索信口开河,离全面「瞎说」还有多远?来自
华为王云鹤离任诺亚方舟实验室,引发业界关注
机器之心编辑部今天,华为诺亚方舟实验室主任王云鹤在朋友圈官宣离职。2026 年以来,国内 AI 圈的一系列高层人事变动,正在宣告整个行业正在经历一次深刻的结构性转折。王云鹤:一位华为老兵王云鹤,生于
华为盘古大模型负责人王云鹤离职投身Agent创业
鱼羊 发自 凹非寺量子位 | 公众号 QbitAI刚刚,华为盘古大模型负责人王云鹤,宣布离职。王云鹤在北大攻读博士期间,就进入了华为诺亚方舟实验室实习,2018年博士毕业后,正式入职。8年间,王云鹤
小牛电动车发布灵犀AIOS:双轮迈入智能新时代,骑行体验再升级
在传统认知中,两轮电动车常被视为简单的代步工具,以亲民的价格和便捷的使用方式占据市场。而人工智能(AI)技术则多与智能手机、智能汽车等高端科技产品关联,给人一种高门槛的印象。然而,近日一场新品发布会
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

