当前位置: 首页
AI资讯
Gemini Omni实测:一句话生成视频,草图秒变电影大片

Gemini Omni实测:一句话生成视频,草图秒变电影大片

热心网友 时间:2026-05-20
转载


过去,AI视频生成的核心是“创造内容”。而谷歌最新发布的Gemini Omni,则将这一概念直接升级为“创造世界”。它不仅理解动能、重力与因果关系,还能将复杂概念瞬间可视化。人类距离“言出法随”的终极梦想,似乎又近了一大步。


在深夜的Google I/O大会上,酝酿已久的Gemini Omni终于登场,堪称视频生成领域的“Banana时刻”。

谷歌DeepMind宣称,Gemini Omni结合了Gemini系列强大的推理与生成能力,实现了对世界的深度理解、多模态交互以及视频编辑能力的重大飞跃。


这被视为谷歌迈向“万能生成模型”的关键第一步。其核心特点包括:

• 作为全新的世界模型,旨在模拟现实。

• 能够生成逼真的视频、图像和交互式模拟。

• 展现出对物理规律(如动能、重力)的直观理解。

• 可将抽象概念转化为生动的可视化讲解。

• 支持对话式的自然语言视频编辑。


业界普遍认为,Gemini Omni就是视频领域的“Nano Banana”,它的出现可能将重新定义内容创作的门槛。


一个“动动嘴就能剪视频”的时代或许正在开启,传统的“眼见为实”观念将面临挑战。






AI改变世界,动动嘴剪视频

除了整体能力的跃升,硅谷风投a16z的合伙人Justine Moore指出了Gemini Omni两个尤为突出的特点:

第一,它将大语言模型级别的对话式交互能力引入了视频编辑,使得迭代修改生成结果、在多个场景中延展角色变得异常简单。

第二,其数字分身功能允许用户创建自己形象和声音的克隆,并直接植入生成的场景之中。


Gemini Omni真正实现了通过自然语言指令编辑视频。其轻量版本Gemini Omni Flash甚至能在编辑时保留视频原有的动作和连贯性,即便切换场景也游刃有余,展现出对输入视频的深刻理解。


更关键的是,Omni融合了更强的物理世界理解与Gemini模型的历史、生物、文化知识,实现了从“画得像”到“讲好故事”的跨越。它在处理人体特写、解释生物学概念方面表现卓越。

例如,Gemini Omni Flash能够展示蒙娜丽莎画像从宏观颜料到微观分子、原子的逐级缩放过程,文字渲染也极其精准。这已远远超越了简单的“内容生成”,迈入了“世界模拟”的范畴。


为什么是Omni,而非Veo 4?

回顾过去三年,谷歌的AI模型命名遵循着清晰的规律:Gemini 1.5、2.0、2.5;Veo 1、2、3;Nano Banana及其迭代版本。这种“数字+小数点”的工整模式,是典型工程师文化的体现,意味着技术路径是连续、可预期的。

然而,Gemini Omni彻底打破了这套体系。它是一个全新的词汇,不属于任何现有产品线。这本身就是一个强烈的信号。

在后续的发布访谈中,Google DeepMind的几位负责人与主持人探讨了Omni相比Veo的跨越式升级、多模态参考如何实现无缝编辑,以及谷歌在生成视频安全与透明方面的实践。


当被问及与Veo的区别时,产品负责人Nicole Brichtova的回答几乎不像一位产品经理:“这不是Veo的升级。我们必须从地基开始重新思考如何构建这个模型。”

她反复使用了一个词:step change(阶跃变化)。在45分钟的访谈里,这个词出现了五次。言下之意很明确:这不是一个新版本,而是一个新物种。

当一家以工程师文化为主导的公司,愿意打破沿用三年的命名体系来为一个产品命名时,这无异于一份公开的战略宣言。


Veo的训练目标是经典的“文本到视频”(text-to-video)。当团队后来希望它加入图像参考(例如根据照片生成视频)时,做法是在已训练好的模型上“叠加”一层条件输入。正如Nicole强调的,这是“layered into”(叠加进去)。Veo的许多能力是事后打上的补丁,而非与生俱来的骨架。

Omni则从第一天起就设定了截然不同的训练目标:“多模态进,多模态出”。图像、音频、视频、文本,这些并非训练时的“额外条件”,而是模型学习“世界是什么”的原始数据。谷歌联合创始人Demis Hassabis在现场也坦言:“我们必须重新思考训练目标本身。”

重做基础模型的代价是巨大的。联合负责人Dumitru Erhan透露,在评估阶段,他们需要同时运行视频生成、编辑、图像生成、文本对齐、音频同步等五条评估管线。


这些管线之间存在权衡:优化其中一条,可能导致另一条性能倒退。“判断在哪里取舍,需要极深的直觉。”Dumitru如是说。

但巨大的代价换来了更惊人的回报:涌现(Emergence)

研究总监Shlomi Fruchter分享了两个连团队都未曾预料的故事。


视频的Nano Banana时刻

Omni真正惊人的能力,或许不在于从零生成,而在于编辑。访谈中有一句反直觉却信息量十足的话,来自Shlomi:

“我们发现,把不同模态放在一起训练,反而让每个模态都变得更好。”

举例来说,如果让模型学会“在视频里生成合适的音乐”,它必须先掌握“生成音乐”本身的能力——而这个能力,反过来会让它生成的视频在节奏和情感上更加连贯。

这句话值得反复品味。它揭示了一个核心逻辑:模态之间并非简单的叠加关系,而是互相滋养、协同进化的关系。

学会绘画的过程,能让模型更懂物理(因为绘画涉及光影和透视)。学会生成音乐的过程,能让模型更理解时间结构(因为音乐是结构化的时间序列)。学会编辑视频的过程,则能让模型更深刻地把握因果关系(因为编辑必须知道“改动此处会如何影响彼处”)。


这与过去十年AI行业主流的、相对割裂的单模态优化路径形成了鲜明对比。为了实现这种多模态共生,谷歌必须解决一个此前所有视频模型都未能妥善解决的问题:如何让模型同时理解图像、音频、视频、文本四种参考指令,并在编辑时精准改动目标,而不“把孩子和洗澡水一起倒掉”。

答案就是:让它们从一开始就一起学习。这也正是Demis Hassabis称Omni是“走向AGI的一步”的原因。并非因为它能拍电影,而是因为只有真正理解世界运作规律的模型,才能可信地编辑和模拟这个世界。

他们“要把猛虎关进笼子”

让Omni显得更加耐人寻味的是,谷歌在发布强大能力的同时,主动为它套上了几道“笼子”。

第一道笼子:A vatar Flow。用户若想将自己的形象植入Omni生成的视频,不能随意上传一张自拍照。必须一次性完成多角度面部采集和特定文本的录音,生成一个唯一的“数字分身”(A vatar)。此后所有涉及用户面容的生成,都必须调用这个A vatar,无法随意更换图像源。Nicole对此直言不讳:“你可能会觉得我们封锁了很多东西。”这是一种明知会增添用户麻烦,却依然坚持的审慎态度。

第二道笼子:强制水印。所有由Omni生成的视频,都会嵌入两层标识:谷歌自家的SynthID不可见水印,以及跨平台的C2PA元数据标准。即使视频被剪辑、搬运或压缩,水印依然可被追踪。用户可以将任何视频上传至Gemini应用,直接询问“这是AI生成的吗?”,系统便能进行查验。

通过Gemini Omni,谷歌不仅发布了一款产品,更向市场宣告:下一轮AI竞赛的焦点,将不再局限于聊天或搜索,而在于谁能生成、编辑并模拟整个物理世界。旧有的行业秩序,已然开始松动。

来源:https://www.163.com/dy/article/KTCVABIF0511ABV6.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
侨银股份下跌237成交额785904万元后市走势分析

侨银股份下跌237成交额785904万元后市走势分析

侨银股份5月20日股价下跌2 37%,成交额7859 04万元。公司核心收入源于城乡环卫保洁,一季度营收与净利润同比下滑。业务已拓展至数字乡村、智慧城市及人工智能领域,近期成立数智城市研究院聚焦AI技术。当日主力资金净流出,股价接近关键支撑位,需关注后续走势。

时间:2026-05-20 20:58
南通创新区聚焦人工智能产业 2026年打造长三角科技高地

南通创新区聚焦人工智能产业 2026年打造长三角科技高地

南通创新区在长三角产业科技论坛阐述产业布局,聚焦人工智能、IC设计和生命健康三大领域,以AI为战略主轴,资源配置围绕智能体、具身智能及数据要素展开,强调垂直领域深度研发。园区通过建设数字基础设施赋能传统产业升级,推动新技术本地首用,已吸引多家企业研发中心落户,并与高校。

时间:2026-05-20 20:57
半导体ETF大涨超6%领跑市场 电力板块回调跌逾4%

半导体ETF大涨超6%领跑市场 电力板块回调跌逾4%

今日市场分化,科创50指数涨超3%。半导体产业链强势延续,相关龙头股价创新高,光纤、液冷服务器等板块走强。半导体设备ETF涨超6%,主要受存储芯片扩产及晶圆厂扩产预期驱动,AI与存储高景气或延续至2026年。电力ETF跌超4%,政策推动人工智能与能源双向赋能,聚焦保障算力能源供给、促进绿色转型及供需协同。

时间:2026-05-20 20:57
Gemini Omni实测:一句话生成视频,草图秒变电影大片

Gemini Omni实测:一句话生成视频,草图秒变电影大片

谷歌发布全新AI模型GeminiOmni,标志着视频生成从“创造内容”迈向“创造世界”。它能理解物理规律,将抽象概念可视化,并通过自然语言对话编辑视频。其多模态架构从底层设计,实现了能力的阶跃式跨越,被视为视频生成领域的新物种。

时间:2026-05-20 20:57
Govee Matter户外灯柱降价40% 智能庭院照明性价比之选

Govee Matter户外灯柱降价40% 智能庭院照明性价比之选

GoveeMatter户外灯柱近期在亚马逊降价至259 99美元,为历史第二低价。该产品支持Matter协议,可接入主流智能家居平台,具备IP66防水等级与360度照明能力,最远照射约9 75米。内置红外传感器兼具迎宾与安防功能,可自动调节灯光并发送异常提醒。

时间:2026-05-20 20:57
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程