数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

中国AI王者Vidu揭秘：真人版《火影》背后视频生成技术

AI热点日报时间：2026-01-30

热点解读

金磊发自凹非寺量子位 | 公众号 QbitAI开年第一个月，国产AI真的是卷没边儿了。这不，AI视频生成圈又新鲜出炉了个大的——全球首个支持一口气生成16秒音视频直出的AI！然后啊，我反手就做一

金磊发自凹非寺
量子位 | 公众号 QbitAI

开年第一个月，国产AI真的是卷没边儿了。

这不，AI视频生成圈又新鲜出炉了个大的——

全球首个支持一口气生成16秒音视频直出的AI！

然后啊，我反手就做一个真人版《火影忍者》第四次忍界大战的名场面，请欣赏：

视频地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

如何？是不是从画面到台词再到音效，都有原版日漫的那个味道了？

而制作这部真人剧背后的模型，正是生数科技新鲜出炉的Vidu Q3。

在体验一番下来，最大的感受就是全自动：

视频和音频是一次性一锅出的运镜和转场是自由切换一步到位的文字和图片都能生成音视频的清晰度是支持1080P的（生成后可提升至4K）叙事能力是完整的、文字渲染是精准的

在语言上，这次Vidu Q3还同时支持中文、英文和日文等多种。

有点意思，着实有点意思。

而且Vidu Q3这次的实力也是得到了国际权威AI基准测试机构Artificial Analysis的认证。

在最新的榜单中，Vidu Q3 排名中国第一，全球第二；与之同台竞技的选手包括马斯克xAI Grok，超越Runway Gen-4.5、Google Veo3.1和OpenAI Sora 2。

如此好玩的新AI，老规矩，一波深度实测，走起~

拍剧吗？一张图就够了

首先在操作上，我们在图生视频页面中，需要先选择“Vidu Q3”这个模型，可以一口气出1-4个视频。

在上传首帧图片、输入对应提示词后，我们还可以选择生成视频的秒数，从1秒到16秒都可以。

接下来，我们用图生音视频的方式，一次性生成一段主播连麦对话的视频，首帧和Prompt如下：

请欣赏效果：

视频地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

有一说一，冷不丁一看，还真像是从真实连麦视频录像中截出来的一段恶搞片段。

不仅一次性16秒的音视频可以直出，而且台词和演绎的效果吻合Prompt的要求。

更让人意外的是，Vidu Q3似乎是识别到了直播场景，在Prompt没有提示的情况下，自动让弹幕动了起来。

用类似的方式，我们再来玩个有意思的。

假设有个短剧的场景是这样：一位年轻女性正在综艺节目当导师，点评参赛选手的演技，需要犀利且愤怒的锐评。

视频地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

嗯，这个演技，台词的愤怒和表情是恰到好处地对上了；不说是AI，都可以拿去以假乱真了。

看完现代愤怒的短剧，接下来，我们再来尝试一下苦情的古装电视剧。

视频地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

AI的演技依旧是相当到位，但更细节的是，像风声、抽泣声，还有抬手、摸脸的音效，都是AI在理解场景后自己补上去的，细节可谓是拉满了。

最后，我上一下难度，测试一下Vidu Q3在16秒内一次性转场、换镜头的丝滑程度。

首帧图片和Prompt如下：

稍等片刻后，我们就得到了这样的结果：

视频地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

同样是有点小惊喜，Vidu Q3在稳稳按照Prompt换场之后，自行补加了背景的闪电，以及仰视恶龙的角度等细节。

由此可见，现在Vidu Q3，不论是视觉效果亦或是理解意图的能力，都已经是几乎可以达到“为剧而生”的程度。

为剧而生，一句话也能直出高清音视频

除了图生音视频之外，Vidu Q3其实用只用自然语言也能做到相似的效果。

同样是支持1-16秒的时长，在文生音视频的界面中，还多出了宽高比的选项，包含16:9、9:16、1:1、4:3和3:4五个比例。

这一次，我们以3D皮克斯风格，只用Prompt的方式生成英文动画片，涵盖镜头切换：

皮克斯3d动画风格。分镜一（中景/侧面视角）：温暖明亮的背景中，传来衣物摩擦的沙沙声，右侧成年人缓缓蹲下，与左侧小男孩平视。他温和地说：“I know you’re disappointed, buddy. I really am sorry.”手势略微比划，镜头侧拍捕捉着两人之间微妙的距离感。分镜二（大人视角/小男孩特写）：镜头转到成年人身后，对准小男孩的脸。他眼神低垂，嘴角微微下撇，肩膀无力地耸着。背景音乐渐弱，只听见他一声极轻的、压抑的吸鼻子声。镜头缓缓推近，背景柔化，将失望与无奈的情绪张力拉满。

视频地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

嗯，整个剧情都是稳稳地按照Prompt指示来展开。

3D皮克斯能拿捏，国产修仙动漫定然也是可以直接复用，类似的分镜，我们只需稍加修改一下场景和台词即可：

视频地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

由此可见，不同风格短剧、漫剧、影视剧的“迁移学习”、批量生产，在Vidu Q3这里是行得通的。

除此之外，Vidu Q3的文生音视频还有个好玩且实用的用法——渲染文字。

因为画面中的文字（建筑、背景等）渲染得好，才能省去后期二次加工所带来的麻烦，真正做到一次性出片。

实测的Prompt可以是这样的：

伴随着紧张的电子鼓点，《黑客帝国》风格的“0”和“1”数字铺满屏幕，瞬间形成“Vidu”的字样。细节丰富，质感饱满，极具视觉冲击力。

视频地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

芭提雅的沙滩边上，面向大海，阳光明媚，背景音乐轻快。海上的天空有一个直升机拉着横幅飞过。横幅上有“快来玩Vidu”的字样。

视频地址：https://mp.weixin.qq.com/s/2jhBB2XdOjxJQ5GnTaM_VA

总而言之，不同比例、不同风格，不论是人物、场景亦或是文字素材，Vidu Q3几乎是能够到影视作品的门槛了。

进击的AI视频生成

最后，让我们跳出具体的案例，把目光投向整个行业的时间轴。

自从AI视频生成走进大众视线以来，毫不夸张地说，它每次的进化都给人带来不小的惊喜；这种震撼感，或许在某种程度上源于一种历史的压缩。

回看人类电影史，从卢米埃尔兄弟1895年放映《火车进站》（默片），到1927年第一部有声电影问世，人类整整走了32年。

而在AI视频生成领域，从Sora引爆“默片时代”的视觉震撼，到业界有声视频直出，这段路程仅用了不到9个月。

在Sora 2之前，视频生成模型的竞争维度，主要还停留在画面的物理一致性、光影质感以及运动幅度上。

那时候的AI视频，就像是一个画面精美但失语的哑巴，声音往往需要后期单独配音或通过其他工具对口型，割裂感在所难免。

但音视频直出的出现，标志着竞争维度的升维：从单一的视觉生成，进化到了音视频原生的多模态融合。

它证明了在统一的模型架构下，AI不仅能理解物理世界的运动规律，还能理解声音与画面之间微妙的时序关联。这种脑补能力，已经从单纯的生成画面，进化到了导戏。

而Vidu Q3的出现，让这种能力得到了更好地延伸：更长、更稳、更连贯。

尤其是它在16秒时长内能做到一镜到底，可以说是让AI真正具备了完整的叙事能力的短片雏形。

当音视频对齐不再是难题，当多语言表达变得轻而易举，我们有理由相信，AI视频生成的下一个“啊哈 Moment”，或许比我们想象中来得还要快。

毕竟在AI的世界里，一天真的能当一年用。

最后，附上一点小福利：

量子位邀请码 LZW2，登陆Vidu.cn注册，即送500积分，快来体验Vidu Q3最新功能！

Vidu Q3体验地址：
https://www.vidu.cn

Vidu API地址：
https://platform.vidu.cn

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：中国AI王者Vidu揭秘：真人版《火影》背后视频生成技术要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.163.com/dy/article/KKHVFVK60511DSSR.html

连麦火影皮克斯 vidu 背景音乐

上一篇：Vidu以16秒声画同步开创视频创作新范式

下一篇：95后“学神”姚顺雨从海外归来，加入腾讯混元

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。