AI视频半年进展与现状分析

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI教程

AI视频半年进展与现状分析

热心网友时间：2026-07-03

转载

自从今年年初Sora亮相后，全球AI视频赛道就进入了一场“追赶游戏”——国内外都想用AI碘伏好莱坞。近几个月，AI视频圈尤其热闹，产品一个接一个发布，几乎每家的口号都是“超越Sora”。

国外方面，两家AI视频初创公司率先开战：旧金山的Luma推出了Dream Machine模型，还放出了一段堪称电影级别的宣传片，产品也对用户免费开放测试；另一家在AI视频领域小有名气的Runway也不甘示弱，宣布向部分用户开放Gen-3 Alpha模型，声称能精准生成光影这样的细节。

国内这边更是不肯落下风。快手的可灵推出了Web端，用户能直接生成最长10秒的视频内容，还支持首尾帧控制和镜头控制。其原创AI奇幻短剧《山海奇镜之劈波斩浪》已经上线，画面全部由AI生成。AI科幻短剧《三星堆：未来启示录》也在近期播出，背后是字节跳动旗下的AI视频产品“即梦”。

AI视频更新速度之快，让不少网友直呼：“好莱坞可能又要来一次大罢工了。”

目前，AI视频赛道上挤满了玩家：谷歌、微软、Meta、阿里、字节、美图这样的科技和互联网巨头，也有Runway、爱诗科技这样的新生力量。据不完全统计，仅国内就有约20家公司推出了自研AI视频产品或模型。

头豹研究院的数据显示，2021年中国AI视频生成行业的市场规模还只有800万元，但预计到2026年，这一规模将达到92.79亿元。不少业内人士笃信，2024年将是AI视频赛道的“Midjourney时刻”。

那么，全球的“Sora们”到底发展到什么程度了？谁最强？AI真的能干掉好莱坞吗？

1 围攻Sora：产品虽多，能用的少

AI视频赛道推出来的产品/模型不少，但真正能让普通用户用上的，非常有限。国外最典型的例子就是Sora——半年过去了，还在内测，只有安全团队、艺术家、设计师和电影制作人等少数人能试用。国内也差不多，阿里的“寻光”、百度的UniVG都还在内测阶段。至于最近热度很高的快手可灵，用户想用也得排队申请。光是这一点，就已经筛掉了大半产品。

剩下那些能用的产品中，不少还有使用门槛：要么需要付费，要么得懂点技术。比如潞晨科技的Open-Sora，如果不懂一些代码知识，根本无从下手。

从国内外公布的AI视频产品来看，各家的操作方式和功能其实大同小异：用户先输入文字指令，再选择画幅大小、清晰度、风格、时长等参数，最后点击一键生成。

这些功能背后的技术难度却天差地别。其中最难的，就是生成视频的清晰度和时长——这也是各家公司宣传时比拼的核心卖点。背后拼的，是训练素材的质量和算力大小。

一位AI研究者告诉「定焦」，目前国内外大多数AI视频生成的是480p或720p分辨率，也有少部分支持1080p高清。但问题在于，高质量素材越多、算力越高，模型不见得就能生成高质量视频。如果用低分辨率素材训练的模型强行生成高分辨率，就会出现崩坏或重复，比如多手多脚。这类问题可以通过放大、修复和重绘的方式解决，但效果和细节往往一般。

时长也是各家疯狂内卷的方向。国内大部分AI视频只能生成2-3秒，能到5-10秒的已经算是很强的产品了。个别产品特别卷——比如即梦最高能到12秒。但即便如此，大家还是比不过Sora——它曾宣称最长能生成60秒的视频，不过至今未开放，实际效果无从验证。

光是卷时长还不够，生成的视频内容还得合理。石榴AI首席研究员张恒直言：“从技术上来说，你可以让AI一直输出，毫不夸张地说，哪怕生成一个小时的视频也不是问题。但我们真正要的，不是一段监控视频，也不是一个循环播放的风景动图，而是画面精美、有故事的短片。”

为了更直观地检验现状，我们测试了5款国内比较热门的免费文生视频AI产品——分别是字节的即梦、Morph Studio、PixVerse、艺映AI、Vega AI。我们给了它们一段相同的文字指令：

“一个穿着红裙子的小女孩，在公园里，喂一只白色的小兔子吃胡萝卜。”

生成速度上各家差不多，只需要2-3分钟。但清晰度、时长差异很大，准确度更是“群魔乱舞”。以下是测试结果：

（艺映AI）

（Vega AI）

（即梦）

（Morph）

（PixVerse）

各家的优缺点非常明显。即梦赢在时长，但后期小女孩直接变形了；Vega AI也有类似问题。PixVerse的画质比较粗糙。相比之下，Morph生成的内容很准确，但只有短短2秒。艺映画质不错，却把“兔子”这个关键元素弄丢了，而且生成的内容偏漫画风，不够写实。

一句话总结：没有一家能产出一段完全符合要求的视频。

2 AI视频难题：准确性、一致性、丰富性

从实际测试结果来看，宣传片和用户体验之间的差距不小。AI视频想要真正商用，还有很长一段路要走。

张恒告诉「定焦」，从技术角度看，目前衡量AI视频模型水平主要看三个维度：准确性、一致性、丰富性。

他用一个例子来解释：生成一段“两个女孩在操场看篮球比赛”的视频。

准确性体现在三方面：一是对内容结构的理解要准确——视频里要出现两个女孩；二是流程控制要准确——比如投篮之后，球要从篮网中落下来；三是静态数据建模要准确——比如镜头中间出现遮挡物时，篮球不能变成橄榄球。

一致性指的是AI在时空上的建模能力，分为主体注意力和长期注意力。主体注意力可以理解为：两个女孩在观看比赛的过程中，要一直留在画面里，不能随便乱跑。长期注意力是指：在运动过程中，视频中的各个元素既不能丢失，也不能出现变形等异常情况。

丰富性是指：AI在没有文字提示的情况下，能自主生成一些合理的细节内容。也就是说，AI要有自己的“逻辑”。

这三个维度，市面上的AI视频工具基本都没有完全做到。各家也在尝试各种解决办法。

比如在人物一致性这个关键难题上，即梦和可灵采用了图生视频的方式——用户先用文字生成图片，再用图片生成视频。或者直接给一两张图片，让AI把它们连起来变成动态视频。

但这并不算是新的技术突破。张恒解释道，图生视频的难度其实低于文生视频。文生视频的原理是：AI先解析用户输入的文字，拆分成一组描述，然后转成文本、转成图片，得到关键帧，再把图片连接起来，形成连贯视频。而图生视频相当于直接给了AI一张可模仿的图片，生成的视频就能延续图片中的人脸特征，从而保证主角的一致性。

在实际场景中，图生视频的效果确实更符合用户预期——因为用文字表达画面细节本身就很有限，有图片做参考显然会有帮助。但即便如此，眼下也远达不到商用程度。直观地说，5秒是图生视频的上限，超过10秒意义就不大了——要么内容重复，要么结构扭曲、质量下降。

目前很多宣称用AI全流程制作的影视短片，其实大多采用的是图生视频或视频到视频的方式。

即梦的“尾帧控制”功能也用到了图生视频。我们尝试了一下，结果是这样的：

在连接过程中，人物还是出现了变形和失真。

另外一位研究者Cyrus也表示，视频讲究连贯。很多AI视频工具所谓的图转视频，本质上是通过单帧图片推测后续动作——至于推测得对不对，目前还是看运气。

文生视频在实现主角一致性上，各家也并非纯靠数据生成。张恒透露，大多数模型是在底层DIT大模型的基础上叠加各种技术，比如ControlVideo，用来加深AI对主角面部特征的记忆，使得人脸在运动过程中保持稳定。

但坦白说，目前这些都还在尝试阶段。即使做了技术叠加，人物一致性的问题也远未解决。

3 AI视频，为什么进化这么慢？

在AI圈，目前最卷的毫无疑问是美国和中国。

从《2023年全球最具影响力人工智能学者》榜单的相关数据可以看出：2020-2023年全球“AI 2000机构”累计的1071家机构中，美国有443家，中国有137家。2023年“AI 2000学者”的国别分布中，美国入选1079人，占全球54.0%；中国280人。

这两年，AI在文生图、文生音乐上取得了不少进步，而最难突破的AI视频，确实也有了一些进展。

在近期举办的世界人工智能大会上，倚天资本合伙人乐元公开表示，视频生成技术近两三年取得的进步，远超预期。新加坡南洋理工大学助理教授刘子纬则认为，视频生成技术目前处于“GPT-3时代”，距离成熟大概还有半年左右。

但乐元也强调，当下的技术水平还不足以支撑大范围的商业化。基于语言模型开发应用时遇到的方法论和挑战，到了视频领域也同样是绕不开的槛。

年初Sora的亮相确实震撼了行业——它基于transformer架构的新型扩散模型DiT，在图像生成质量和写实度上实现了重要突破。Cyrus表示，目前国内外大多数文生视频产品都是沿用了类似的技术路径。

（图源 / Sora官网）

眼下，大家在底层技术上基本一致。虽然各家也在尝试寻求技术突破，但更多精力是花在了卷训练数据上——通过更多样、更高质量的数据来丰富产品功能。

以字节的即梦和Morph AI的Morph Studio为例，它们都允许用户选择视频的运镜方式。背后的原理就是数据集不同。张恒解释说：“以往各家训练时用的图片都比较简单，通常只标注图片里有哪些元素，但没有说明这个元素是用什么镜头拍的。很多公司发现了这个缺口，于是开始用3D渲染视频数据集来补全镜头特征。”这些数据，大多来自影视行业和游戏公司的效果图。

我们实际体验了一下这个功能，但镜头变化的效果并不明显。

Sora们之所以比GPT、Midjourney们发展得慢，是因为视频多了一个时间轴，而且训练视频模型比训练文字、图片模型都难得多。“现在能用的视频训练数据，基本已经被挖掘殆尽了。我们也在想一些新办法，来制造一批可以拿来训练的数据。”张恒坦言。

而且每个AI视频模型都有自己擅长的风格——就像快手可灵做的吃播视频效果更好，因为它背后有大量这类数据的支撑。

石榴AI创始人沈仁奎指出，目前AI视频技术可以分为Text to video（文转视频）、Image to video（图转视频）、Video to video（视频转视频）以及A vatar to video（数字人定制）。其中，能定制形象和声音的数字人，已经应用到了营销领域并达到了商用程度。而文生视频，还需要解决精准度和可控度的问题。

眼下，无论是抖音和博纳合作的AI科幻短剧《三星堆：未来启示录》，还是快手原创的AI奇幻短剧《山海奇镜之劈波斩浪》，更多还是大模型公司主动找影视制作团队合作，背后有推广自家技术产品的需求。更重要的是，这些作品并没有真正出圈。

在短视频领域，AI还有很长的路要走。“干掉好莱坞”这样的说法，显然还是太早了。

来源:https://www.aiagiai.com/1832.html

上一篇：人AI初创公司25亿美元被收购，大模型淘汰赛加速

下一篇：中国五连冠终结美国重登IMO榜首AI首题打回原形