视频版Nano Banana来了!内置Gemini世界知识
Jay 发自 凹非寺量子位 | 公众号 QbitAI虽然Coding还是一坨,但谷歌搞「多模态」确实有两把刷子。Gemini Omni Flash正式开放API,视频版Nano Banana。麻瓜爆改「哈利波特」不再是梦想。且看最新用Gemini Omni表演的这四个数字魔术:太离谱了,这一致性和文
虽然Coding这块暂时还没完全追上,但谷歌在多模态上确实有独到之处。
Gemini Omni Flash正式开放API,同时带来了一个视频版的Nano Banana。
麻瓜们,爆改“哈利·波特”不再是幻想。来看看最新用Gemini Omni演示的四个数字魔术:
这一致性和文字清晰度,简直离谱——还要什么绿幕和特效?直接现场直播奇异博士就行了。
与此同时,大家心心念念的“香蕉”,也迎来了它的“光速版”。
Nano Banana 2 Lite:迄今最快、最经济高效的Gemini图像模型。
毫不夸张地说——4秒出一张图,1K分辨率图像仅需约两毛多。

和Nano Banana 2放在一起对比,这速度简直像起飞了一样。
更别说一次生图能拖3分钟的GPT Image 2了……
怪不得Gemini 3.5 Pro一直憋不出来——敢情时间全花在心心念念的多模态上了,是吧,哈萨比斯?
Gemini Omni Flash
Google I/O 2026大会上首次亮相的Gemini Omni Flash,把Gemini的多模态推理能力与视频生成、编辑深度结合,当时就引发了不少关注。
如今,这个模型已通过Gemini API和Google AI Studio正式向开发者开放。它支持基于文本、图像和视频等多种输入,轻松生成高质量视频并进行编辑。
四项关键能力:
- 对话式视频编辑:用自然语言修改和精修视频,跟改飞书文档似的。
- 多模态参考:组合图像、文本、视频输入,保持场景控制和一致性。
- 现实世界知识:调用Gemini在历史、生物、叙事逻辑等方面的知识来构建视频,不用再写三页Prompt描述建筑风格。
- 文字与动作同步:通过简单提示词,将文字和图形直接连接到视频动作。

价格也很有竞争力:每秒视频输出成本0.10美元,跟Veo 3.1 Fast持平。
定位方面,同为轻量版视频生成模型,Omni Flash更强调Gemini的世界知识,生态方面也全面向Gemini层靠拢。
不过谷歌也挺坦诚,主动列了一堆现阶段局限:
- 目前只支持10秒视频生成,后续会支持更长;
- 暂不支持音频参考上传和场景扩展;
- API支持最长3秒的视频作为参考素材,但目前模型还无法正确处理这类输入;
- 场景切换和运镜时的人物一致性仍有局限。
Nano Banana 2 Lite
Nano Banana 2 Lite(又名gemini-3.1-flash-lite-image),专为高速处理而设计。
经过针对性优化,它瞄准的是那些对延迟极度敏感、需要短时间内批量处理大量图像的实时应用场景——比如电商素材批量生成、广告创意快速迭代、自动化内容流水线。
两大核心卖点——
- 光速:出图延迟约4秒,是Nano Banana 2的五分之一(后者约20秒)。
- 白菜价:一张1K图片仅需约0.034美元,是Nano Banana 2的一半,Nano Banana Pro的四分之一。
速度砍了,价格砍了,但生图和图像编辑能力并没有明显缩水。Nano Banana 2 Lite 依然保持了出色的文字渲染效果,在benchmark上和Grok等模型处于同一水平线。

因此谷歌的建议是:如果你还在贪便宜用初代Nano Banana,赶紧换。Lite版在各项关键指标上已经全方位碾压了。
双剑合璧
等等,先别走。
本以为这只是两款并行的模型发布,没想到谷歌表示:还有新花样。
真正的神奇之处,在于将这些模型串联起来使用。
众所周知,AIGC创作需要反复迭代,素材管理相当麻烦。
如今,借助这两个模型,终于不用再反复上传文件了,图像生成与视频创作能够无缝衔接。
具体来说,可以先用Nano Banana 2 Lite高速出图,再把生成的图像作为参考素材喂给Gemini Omni Flash,一键转化为视频。
为了展示这套1+1>2的魔法Workflow,谷歌甚至专门做了3个Demo APP:
- 1、Anywhere:自拍一张或上传照片,NB2 Lite瞬间把你P到几十个地标景点里。接着点一下图片,Omni Flash把静态景点变成动态短片。赛博旅游,这下也端到端了。
- 2、Space Lift:这有点吓人——感觉再和Genie世界模型结合一下,未来怕是会威胁到不少传统装修方案SaaS公司。上传一张房间照片,NB2 Lite先出各种装修风格方案。找到喜欢的,点视频按钮,Omni能直接给你一段电影级空间漫游。
- 3、Omni product studio:跨境电商的福音来了。给产品拍张白底图,NB2 Lite出各种场景化商品图,Omni Flash再把静态图变成电商短视频。从“产品”到“广告素材”,全链路自动跑完。
所以,多模态到底有什么用?
这个问题谷歌肯定被问了无数次。尤其在2026年,Coding几乎成了模型智商的代名词,每家都在Coding上往死里卷。
死磕多模态,图什么?
AGI叙事那一套就不展开了。短期来看,谷歌这套多模态模型确实能赋能旗下不少产品——Stitch是一个,Pixel内置的P图是一个,NotebookLM的横空出世也蛮惊艳。
这次发的两个新模型,则让人看到了多模态在垂直场景落地的更多潜力。电商、装修、短视频……这些业务的需求是真的,钱也是真的。加上有安卓生态加持,基本不用太担心商业化的问题。
Coding谷歌暂时追不上,但多模态这张牌桌,谷歌可能是唯一能组齐一套牌的玩家。
不过……Gemini 3.5 Pro到底啥时候来啊!!!

参考链接:
[1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-flash-nano-banana-2-lite/
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:视频版Nano Banana来了!内置Gemini世界知识要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点想要从YouTube视频中提取声音、进行人声克隆,或者将歌曲的人声与伴奏完美分离?过去这些操作往往需要专业录音棚才能完成,如今只需一个在线工具——Vocal Replica就能轻松实现。本篇文章将详细介绍这款一体化音频处理工具。 什么是Vocal Replica? Vocal Replica本质上是
多语言视频制作、虚拟角色定制——这些功能曾经只出现在科幻电影中,如今却已真实地走进了我们的日常生活。今天要介绍的这款AI工具,正是为了大幅降低多语言视频创作门槛而诞生的。 什么是KreadoAI? 通俗地讲,KreadoAI是一款人工智能视频生成工具,你只需输入一段文字或几个关键词,它就能自动生成支
当企业需要高效沟通时,Ringflow 提供的云呼叫中心平台,让各种规模的组织都能借助 AI 驱动的全渠道支持、智能路由和实时分析,快速提升客户体验与团队生产力。它不止是一个电话系统,更像是一个能自动完成任务、提供深度洞察的协作助手——客户满意度上去了,团队效率也自然跟着起飞。 什么是Ringflo
在应收账款管理(ARM)及医疗领域,基于AI技术的工作流平台正彻底革新收入回收效率。通俗而言,这类智能平台使企业能够更高效地与付款方沟通,从而更快、更稳定地实现资金回笼。什么是Finvi?Finvi正是该领域的领先方案——它提供AI驱动的智能工作流平台,专注于应收账款管理与医疗行业。其核心价值在于:
- 日榜
- 周榜
- 月榜
热点快看
