当前位置: 首页
科技数码
谷歌世界模型突破技术门槛实现重大进展

谷歌世界模型突破技术门槛实现重大进展

热心网友 时间:2026-05-19
转载

Google可能要放大招了。

就在Google I/O 2026开幕前夕,两条由尚未发布的新视频模型Gemini Omni生成的视频悄悄流出。没有预告,没有造势,整个社交媒体瞬间被引爆。

一条视频里,一位教授站在黑板前,手持粉笔,一步步推导着三角恒等式;另一条,则是两名男士坐在海边的高档餐厅里,安静地享用意大利面。

Reddit和X的评论区,几乎被同一句话刷屏:“这不可能是现有的技术水平。”

两个看似普通的日常场景,凭什么能让见惯了AI大场面的技术圈集体侧目?

令人震惊的视频

先看那条“教授黑板讲课”的视频。生成它,只用了一条简单的指令:

“一位教授在传统黑板上写出三角恒等式的数学证明,同时用语言解释他当前正在推导的步骤。”

就这么一句话,没有多轮对话,也没有分步骤控制。

结果呢?教授手持粉笔,逐步写下公式,同时开口讲解,画面流畅,板书工整。

听起来似乎平平无奇?

但如果你了解当前视频生成模型的技术边界在哪里,就会明白Gemini Omni同时做到了三件事——而这三件事,在过去从未被同一个模型完美实现。

第一,推理对了。

黑板上的证明过程,在数学上是成立的。这不是视觉上长得像公式的符号堆砌,而是数学意义上真实有效的推导。要做到这一点,模型必须在基础的token预测之外,具备一定的符号推理能力。它得“知道”下一步应该出现什么公式,而不是随机采样一个看起来像数学的图案。这种语义准确性叠加在视觉生成之上,正是大多数视频模型会在这类测试中翻车的原因。

第二,空间关系对了。

评测者描述,粉笔书写时的手部和手臂动作“读起来是自然的”,黑板上的方程式清晰可辨。手部,是AI视频生成里公认的“鬼门关”。手指数量错误、关节扭曲、与物体的空间关系失真,几乎是每一代视频模型都栽过的坑。而在这里,一支粉笔被正确握持,在黑板上留下有意义的笔迹,手腕的力道、落笔的角度,都在合理的范围内。这一关,比单纯画一只正常的手还要难,因为它要求手与黑板、粉笔、书写行为之间,形成一套完整的空间逻辑。

第三,时序对了。

这是最容易被低估的一点。教授写下某个推导步骤的同时,口头讲解的正是这个步骤,板书进度与语音内容保持完美同步。这远不止是音视频的帧级对齐,而是视觉事件、语义事件、时间事件三者之间的跨模态协调。任何一个维度的理解出现偏差,结果就会是“手在写A,嘴在讲C”。这种错位,人类观众一眼就能感知到。

如果这三件事只是分别做到,我们可以认为是三个专项模块拼凑的结果。但三者同时成立、彼此协调,更可能意味着模型在某个表征层面上,已经对“教授在黑板上讲课”这件事形成了整体性的语义理解。换句话说,它似乎理解了这件事在现实世界里是什么样子,以及其中各个元素之间的约束关系。这也正是“世界模型”这个词,会在这条视频流出后被频繁提及的原因。

在黑板视频流出的同时,另一条视频也一起曝光:两名男士在海边高档餐厅吃意大利面。

这个场景的选择,绝非偶然。2024年,一段AI生成的“Will Smith吃意大利面”视频曾在网上疯传。画面里手指数量不对,面条像活物一样扭动,叉子和嘴的空间关系完全失控。那段视频,成了早期AI视频生成能力的“耻辱柱”。

图为“Will Smith吃意大利面”视频截图

而这一次,Gemini Omni生成的结果,被用户评论为“令人难以置信地真实”。这背后考验的,是模型对刚体与柔性体之间动态交互的建模能力:叉子是硬的,面条是软的,两者在接触时会产生形变,而形变的方式必须符合现实世界里的物理直觉。这正是早期生成模型在隐式物理模拟上的致命短板。

一个模型,在两条视频里,分别挑战了视频生成最难的两类问题:一类是符号、语音与画面的同步,另一类是人与物体、刚体与柔性体的交互。并且,它把这些问题都推进到了一个更可用的状态。Gemini Omni展示的,更像是一个对世界有着更深层理解的基座模型。

Gemini Omni的冲击

截至目前,Google尚未发布Gemini Omni的任何技术文档,也没有公开模型参数或基准测试数据。但关于它的架构,外界已有三种主流解读。

最保守的说法是,Omni只是Veo的品牌重命名,底层推理引擎没有根本变化;第二种说法则认为,Omni是在Gemini架构下重新训练的全新视频模型,与Veo并行但独立;第三种说法最激进,认为Omni是一个真正意义上的原生多模态统一模型,能在单一架构里原生处理文字、图像、视频和音频。

基于那两段视频的表现,第三种解读反而像是“Omni”这个命名最合理的指向——毕竟在拉丁语中,“omnis”意味着“所有”。

如果Omni真正打通了多模态链路,那么模型竞争的焦点就会发生根本性转变。竞争将不再是谁能拍出更像电影的画面,而是谁能成为内容创作者的“唯一目的地”。

虽然现在还不能断言Gemini Omni已经是世界模型,但它至少表明,视频生成技术正在逼近世界模型要解决的核心问题:如何在时间中维持一个可解释、可编辑、可连续推演的场景。

产品层面的冲击同样不容忽视。今天,一条AI视频的生产链路通常需要串联语言模型写脚本、图像模型做故事板、视频模型做动画渲染,再用外部剪辑软件做后期处理。每一次跨工具切换,都意味着信息损耗和风格漂移。一旦Gemini Omni的对话式视频编辑能力成立,这条冗长的链路就可能被一个简单的对话窗口替代。

更关键的是,如果Omni被深度整合进Gemini入口,并与Gmail、Google Docs、YouTube、Android等生态打通,那么这种由分发和生态构筑的壁垒,将是字节的Seedance、快手的Kling等竞争对手在短期内难以复制的。技术能力决定上限,而生态决定规模。Gemini Omni真正的威胁,或许不在于它今天生成的视频有多好,而在于它把顶级的视频生成能力,放在了竞争对手根本进不去的生态位里——这几乎构成了一种降维打击。

世界模型时刻或许来临

回顾过去几年,生成式AI的进化路径相对清晰:语言模型学会了读和写,图像模型学会了看和画,视频模型学会了动。每一个模态都在自己的赛道上狂奔,但它们之间,始终存在一道隐形的墙。模型知道文字,也知道图像,但它未必理解文字和图像之间、声音和动作之间、逻辑和画面之间在现实世界中的约束关系。

如果说ChatGPT时刻定义了语言的边界,Sora时刻定义了视频的边界,那么Gemini Omni所指向的,很可能是第一个真正意义上的“世界模型时刻”。模型第一次开始尝试理解,不同模态在现实世界中的内在关联与约束,而不仅仅是分别生成它们。这无疑是一次质的飞跃。

当然,Gemini Omni是否真正实现了这一点,在5月19日Google I/O 2026大会正式揭晓之前,没有人能给出确定的答案。但泄露出来的视频,给出的信号已经足够有力。接下来Google会在台上说什么,我们很快就会知道。

来源:https://www.tmtpost.com/7991943.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
谷歌世界模型突破技术门槛实现重大进展

谷歌世界模型突破技术门槛实现重大进展

Google可能要放大招了。 就在Google I O 2026开幕前夕,两条由尚未发布的新视频模型Gemini Omni生成的视频悄悄流出。没有预告,没有造势,整个社交媒体瞬间被引爆。 一条视频里,一位教授站在黑板前,手持粉笔,一步步推导着三角恒等式;另一条,则是两名男士坐在海边的高档餐厅里,安静

时间:2026-05-19 11:28
衡水老白干能否凭借男人味定位实现市场反弹

衡水老白干能否凭借男人味定位实现市场反弹

白酒消费的语境,如今已悄然改变。当年轻化、微醺化成为主流趋势,那句带着传统硬汉标签的“男人味”,还能叩开当下消费者的心门吗? 今年初,一个变化引起了行业注意:衡水老白干古法30的宣传语,悄然从“真年份,更绵甜”换回了熟悉的“喝出男人味”。紧接着,在“2026年第一季度古法百万联盟发展大会”上,公司明

时间:2026-05-19 11:28
2026全球创新药大变局前瞻 FOMO机遇与挑战深度解析

2026全球创新药大变局前瞻 FOMO机遇与挑战深度解析

2026年全球生物制药行业并购活跃,大型药企为应对专利悬崖,在眼科、自身免疫及中枢神经领域集中收购。交易多针对早中期资产,支付结构体现风险共担。中国创新药资产成为重要标的,反映全球创新格局演变。行业竞争正从同质化转向精准化,早期资产价值获得系统性重估。

时间:2026-05-19 11:28
小米SU7 GT双电机版5月21日上市 1003马力续航705公里

小米SU7 GT双电机版5月21日上市 1003马力续航705公里

小米YU7GT将于5月21日全球首发。这款跑车级SUV拥有1003匹马力和300km h极速,续航达705km。其采用空气动力学设计,风阻系数仅0 23Cd。双电机综合功率738kW,百公里加速2 8秒以内,支持快速充电。内饰运动豪华,搭载智能底盘与最新车机系统,并配备高阶智驾与多重安全技术。

时间:2026-05-19 11:28
从纺织机到人工智能技术革新如何重塑就业岗位与劳动形态

从纺织机到人工智能技术革新如何重塑就业岗位与劳动形态

生成式人工智能引发就业替代担忧,但历史经验表明技术进步并未消灭工作。技术通过提升效率、细化分工和解放劳动力,同步创造新岗位并提升工作质量。从工业革命到AI时代,就业结构持续升级,重复性任务被替代,而需要复杂判断和创造力的岗位不断涌现。当前AI主要替代标准化任务,同时催。

时间:2026-05-19 11:27
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程