AI视频半年进展与现状分析
自从今年年初Sora亮相后,全球AI视频赛道就进入了一场“追赶游戏”——国内外都想用AI碘伏好莱坞。近几个月,AI视频圈尤其热闹,产品一个接一个发布,几乎每家的口号都是“超越Sora”。
国外方面,两家AI视频初创公司率先开战:旧金山的Luma推出了Dream Machine模型,还放出了一段堪称电影级别的宣传片,产品也对用户免费开放测试;另一家在AI视频领域小有名气的Runway也不甘示弱,宣布向部分用户开放Gen-3 Alpha模型,声称能精准生成光影这样的细节。
国内这边更是不肯落下风。快手的可灵推出了Web端,用户能直接生成最长10秒的视频内容,还支持首尾帧控制和镜头控制。其原创AI奇幻短剧《山海奇镜之劈波斩浪》已经上线,画面全部由AI生成。AI科幻短剧《三星堆:未来启示录》也在近期播出,背后是字节跳动旗下的AI视频产品“即梦”。
AI视频更新速度之快,让不少网友直呼:“好莱坞可能又要来一次大罢工了。”
目前,AI视频赛道上挤满了玩家:谷歌、微软、Meta、阿里、字节、美图这样的科技和互联网巨头,也有Runway、爱诗科技这样的新生力量。据不完全统计,仅国内就有约20家公司推出了自研AI视频产品或模型。
头豹研究院的数据显示,2021年中国AI视频生成行业的市场规模还只有800万元,但预计到2026年,这一规模将达到92.79亿元。不少业内人士笃信,2024年将是AI视频赛道的“Midjourney时刻”。
那么,全球的“Sora们”到底发展到什么程度了?谁最强?AI真的能干掉好莱坞吗?
1 围攻Sora:产品虽多,能用的少
AI视频赛道推出来的产品/模型不少,但真正能让普通用户用上的,非常有限。国外最典型的例子就是Sora——半年过去了,还在内测,只有安全团队、艺术家、设计师和电影制作人等少数人能试用。国内也差不多,阿里的“寻光”、百度的UniVG都还在内测阶段。至于最近热度很高的快手可灵,用户想用也得排队申请。光是这一点,就已经筛掉了大半产品。
剩下那些能用的产品中,不少还有使用门槛:要么需要付费,要么得懂点技术。比如潞晨科技的Open-Sora,如果不懂一些代码知识,根本无从下手。
从国内外公布的AI视频产品来看,各家的操作方式和功能其实大同小异:用户先输入文字指令,再选择画幅大小、清晰度、风格、时长等参数,最后点击一键生成。
这些功能背后的技术难度却天差地别。其中最难的,就是生成视频的清晰度和时长——这也是各家公司宣传时比拼的核心卖点。背后拼的,是训练素材的质量和算力大小。
一位AI研究者告诉「定焦」,目前国内外大多数AI视频生成的是480p或720p分辨率,也有少部分支持1080p高清。但问题在于,高质量素材越多、算力越高,模型不见得就能生成高质量视频。如果用低分辨率素材训练的模型强行生成高分辨率,就会出现崩坏或重复,比如多手多脚。这类问题可以通过放大、修复和重绘的方式解决,但效果和细节往往一般。
时长也是各家疯狂内卷的方向。国内大部分AI视频只能生成2-3秒,能到5-10秒的已经算是很强的产品了。个别产品特别卷——比如即梦最高能到12秒。但即便如此,大家还是比不过Sora——它曾宣称最长能生成60秒的视频,不过至今未开放,实际效果无从验证。
光是卷时长还不够,生成的视频内容还得合理。石榴AI首席研究员张恒直言:“从技术上来说,你可以让AI一直输出,毫不夸张地说,哪怕生成一个小时的视频也不是问题。但我们真正要的,不是一段监控视频,也不是一个循环播放的风景动图,而是画面精美、有故事的短片。”
为了更直观地检验现状,我们测试了5款国内比较热门的免费文生视频AI产品——分别是字节的即梦、Morph Studio、PixVerse、艺映AI、Vega AI。我们给了它们一段相同的文字指令:
“一个穿着红裙子的小女孩,在公园里,喂一只白色的小兔子吃胡萝卜。”
生成速度上各家差不多,只需要2-3分钟。但清晰度、时长差异很大,准确度更是“群魔乱舞”。以下是测试结果:
(艺映AI)
(Vega AI)
(即梦)
(Morph)
(PixVerse)
各家的优缺点非常明显。即梦赢在时长,但后期小女孩直接变形了;Vega AI也有类似问题。PixVerse的画质比较粗糙。相比之下,Morph生成的内容很准确,但只有短短2秒。艺映画质不错,却把“兔子”这个关键元素弄丢了,而且生成的内容偏漫画风,不够写实。
一句话总结:没有一家能产出一段完全符合要求的视频。
2 AI视频难题:准确性、一致性、丰富性
从实际测试结果来看,宣传片和用户体验之间的差距不小。AI视频想要真正商用,还有很长一段路要走。
张恒告诉「定焦」,从技术角度看,目前衡量AI视频模型水平主要看三个维度:准确性、一致性、丰富性。
他用一个例子来解释:生成一段“两个女孩在操场看篮球比赛”的视频。
准确性体现在三方面:一是对内容结构的理解要准确——视频里要出现两个女孩;二是流程控制要准确——比如投篮之后,球要从篮网中落下来;三是静态数据建模要准确——比如镜头中间出现遮挡物时,篮球不能变成橄榄球。
一致性指的是AI在时空上的建模能力,分为主体注意力和长期注意力。主体注意力可以理解为:两个女孩在观看比赛的过程中,要一直留在画面里,不能随便乱跑。长期注意力是指:在运动过程中,视频中的各个元素既不能丢失,也不能出现变形等异常情况。
丰富性是指:AI在没有文字提示的情况下,能自主生成一些合理的细节内容。也就是说,AI要有自己的“逻辑”。
这三个维度,市面上的AI视频工具基本都没有完全做到。各家也在尝试各种解决办法。
比如在人物一致性这个关键难题上,即梦和可灵采用了图生视频的方式——用户先用文字生成图片,再用图片生成视频。或者直接给一两张图片,让AI把它们连起来变成动态视频。
但这并不算是新的技术突破。张恒解释道,图生视频的难度其实低于文生视频。文生视频的原理是:AI先解析用户输入的文字,拆分成一组描述,然后转成文本、转成图片,得到关键帧,再把图片连接起来,形成连贯视频。而图生视频相当于直接给了AI一张可模仿的图片,生成的视频就能延续图片中的人脸特征,从而保证主角的一致性。
在实际场景中,图生视频的效果确实更符合用户预期——因为用文字表达画面细节本身就很有限,有图片做参考显然会有帮助。但即便如此,眼下也远达不到商用程度。直观地说,5秒是图生视频的上限,超过10秒意义就不大了——要么内容重复,要么结构扭曲、质量下降。
目前很多宣称用AI全流程制作的影视短片,其实大多采用的是图生视频或视频到视频的方式。
即梦的“尾帧控制”功能也用到了图生视频。我们尝试了一下,结果是这样的:

在连接过程中,人物还是出现了变形和失真。
另外一位研究者Cyrus也表示,视频讲究连贯。很多AI视频工具所谓的图转视频,本质上是通过单帧图片推测后续动作——至于推测得对不对,目前还是看运气。
文生视频在实现主角一致性上,各家也并非纯靠数据生成。张恒透露,大多数模型是在底层DIT大模型的基础上叠加各种技术,比如ControlVideo,用来加深AI对主角面部特征的记忆,使得人脸在运动过程中保持稳定。
但坦白说,目前这些都还在尝试阶段。即使做了技术叠加,人物一致性的问题也远未解决。
3 AI视频,为什么进化这么慢?
在AI圈,目前最卷的毫无疑问是美国和中国。
从《2023年全球最具影响力人工智能学者》榜单的相关数据可以看出:2020-2023年全球“AI 2000机构”累计的1071家机构中,美国有443家,中国有137家。2023年“AI 2000学者”的国别分布中,美国入选1079人,占全球54.0%;中国280人。
这两年,AI在文生图、文生音乐上取得了不少进步,而最难突破的AI视频,确实也有了一些进展。
在近期举办的世界人工智能大会上,倚天资本合伙人乐元公开表示,视频生成技术近两三年取得的进步,远超预期。新加坡南洋理工大学助理教授刘子纬则认为,视频生成技术目前处于“GPT-3时代”,距离成熟大概还有半年左右。
但乐元也强调,当下的技术水平还不足以支撑大范围的商业化。基于语言模型开发应用时遇到的方法论和挑战,到了视频领域也同样是绕不开的槛。
年初Sora的亮相确实震撼了行业——它基于transformer架构的新型扩散模型DiT,在图像生成质量和写实度上实现了重要突破。Cyrus表示,目前国内外大多数文生视频产品都是沿用了类似的技术路径。
(图源 / Sora官网)
眼下,大家在底层技术上基本一致。虽然各家也在尝试寻求技术突破,但更多精力是花在了卷训练数据上——通过更多样、更高质量的数据来丰富产品功能。
以字节的即梦和Morph AI的Morph Studio为例,它们都允许用户选择视频的运镜方式。背后的原理就是数据集不同。张恒解释说:“以往各家训练时用的图片都比较简单,通常只标注图片里有哪些元素,但没有说明这个元素是用什么镜头拍的。很多公司发现了这个缺口,于是开始用3D渲染视频数据集来补全镜头特征。”这些数据,大多来自影视行业和游戏公司的效果图。
我们实际体验了一下这个功能,但镜头变化的效果并不明显。
Sora们之所以比GPT、Midjourney们发展得慢,是因为视频多了一个时间轴,而且训练视频模型比训练文字、图片模型都难得多。“现在能用的视频训练数据,基本已经被挖掘殆尽了。我们也在想一些新办法,来制造一批可以拿来训练的数据。”张恒坦言。
而且每个AI视频模型都有自己擅长的风格——就像快手可灵做的吃播视频效果更好,因为它背后有大量这类数据的支撑。
石榴AI创始人沈仁奎指出,目前AI视频技术可以分为Text to video(文转视频)、Image to video(图转视频)、Video to video(视频转视频)以及A vatar to video(数字人定制)。其中,能定制形象和声音的数字人,已经应用到了营销领域并达到了商用程度。而文生视频,还需要解决精准度和可控度的问题。
眼下,无论是抖音和博纳合作的AI科幻短剧《三星堆:未来启示录》,还是快手原创的AI奇幻短剧《山海奇镜之劈波斩浪》,更多还是大模型公司主动找影视制作团队合作,背后有推广自家技术产品的需求。更重要的是,这些作品并没有真正出圈。
在短视频领域,AI还有很长的路要走。“干掉好莱坞”这样的说法,显然还是太早了。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Claude Token节省十大实用技巧方案
通过编辑而非追加消息、每15-20条消息开新对话、合并问题、利用Projects缓存、预设记忆、关闭附加功能、按任务选择模型、分散时段、避开高峰及开启超额使用,能有效减少上下文重读,节省Token。
硅基流动冲刺Token工厂第一股亏损反更值钱?
硅基流动冲刺港交所“Token工厂第一股”,2025年营收5533万元,净亏损3 45亿元,毛利率-24%。两条业务线分化:公有云服务亏损严重,本地部署毛利率达82 5%。依赖中立第三方定位吸引资本,但面临原厂降价、大厂竞争及供应链风险,估值77亿背后存隐忧。
AI Agent的真正价值在于长在业务流程中
AIAgent需嵌入企业业务流程,而非仅作聊天工具。以零售品类管理为例,通过趋势识别、选品与货架规划,预计可带来2%—5%销售提升及10%P&L改善。设计需模块化、可整合,确保可解释性,重新界定人、AI与工具的关系。
后张雪峰时代大厂抢滩AI志愿填报
AI高考志愿填报工具在大厂推动下普及,能快速整合信息、生成方案,但存在数据幻觉、同质化风险。它无法替代张雪峰式实用主义建议和信誉责任,志愿填报仍需个性化判断与深度信息。
阿里禁用Anthropic全系产品的理性风控决策
阿里自7月10日起全员禁用Anthropic全系产品,因其ClaudeCode被发现存在隐蔽身份识别与隐写标记机制,且Anthropic曾指控阿里进行模型蒸馏。此举源于安全信任崩塌、中美AI博弈加剧,阿里同步换装自研工具Qoder,推动国产AI编码工具替代。
- 日榜
- 周榜
- 月榜
相关攻略
2026-07-04 14:54
2026-07-04 14:54
2026-07-04 14:54
2026-07-04 14:53
2026-07-04 14:53
2026-07-04 14:53
2026-07-04 06:48
2026-07-04 06:48
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

