面包屑图标 当前位置: 首页
AI资讯
热点详情

视频版Nano Banana来了:内置Gemini世界知识,原版香蕉出图仅需4秒

AI热点日报
AI热点日报时间:2026-07-01
热点解读

虽然Coding还是一坨,但谷歌搞「多模态」确实有两把刷子。 Gemini Omni Flash正式开放API,视频版Nano Banana。 麻瓜爆改「哈利波特」不再是梦想。且看官方用Gemini Omni表演的这四个数字魔术:   太离谱了,这一致性和文字清晰度,还要啥

说到底,Coding这事儿上谷歌是有点落后,但在多模态这块,人家确实有两把刷子。

今天,Gemini Omni Flash正式开放API——说白了,就是视频版的Nano Banana。效果有多炸裂?看看官方拿它表演的这四个数字魔术就知道了。

这一致性和文字清晰度,还要啥绿幕和特效?直接现场直播奇异博士都不成问题。

与此同时,大家一直念叨的「香蕉」,也等来了一个光速版。

Nano Banana 2 Lite:迄今为止最快、最经济高效的Gemini图像模型。

4秒一张图,1024分辨率成本才2毛出头,这速度只能用「离谱」来形容。

和Nano Banana 2放在一起,速度直接起飞。更别说那个一次生图能干三分钟的GPT Image 2,差距简直不是一个时代的。

怪不得Gemini 3.5 Pro憋半天不出来,敢情时间全花在多模态上了是吧,哈萨比斯?

Gemini Omni Flash

这个模型早在今年Google I/O上就亮过相,把Gemini的多模态推理能力和视频生成、编辑深度结合,当时就引发了不少关注。如今正式通过API和Google AI Studio向开发者开放,能基于文本、图像、视频等多种输入直接生成和编辑视频。

来看它的四项核心能力:

对话式视频编辑——用自然语言改视频,跟改飞书文档一个感觉;多模态参考——图像、文本、视频可以一起作为输入,场景控制和一致性保持得很稳;现实世界知识——调用Gemini在历史、生物、叙事逻辑方面的知识帮你构建视频,不用再写三页Prompt描述建筑风格;文字与动作同步——简单提示词就能把文字和图形直接关联到视频动作上。

价格也很有竞争力,每秒视频产出只要0.10美元,跟Veo 3.1 Fast一个价位。定位上,Omni Flash更像轻量版的视频生成模型,但特别强调了Gemini的世界知识整合,整个生态也在全面朝Gemini层靠拢。

不过谷歌也挺坦诚,主动列了不少现阶段的局限:目前只支持10秒视频;不支持音频参考上传和场景扩展;API虽然能接收最长3秒的视频作为参考素材,但模型还没法正确处理这类输入;场景切换和运镜时的人物一致性也还有待改进。

Nano Banana 2 Lite

这个模型(官方代号 gemini-3.1-flash-lite-image)专为高速而生。优化方向很明确:那些对延迟极度敏感、需要批量处理大量图像的实时场景——电商素材批量生成、广告创意快速迭代、自动化内容流水线,就是它的主战场。

两大核心卖点:

光速:出图延迟大约4秒,是Nano Banana 2的五分之一(后者约20秒)。白菜价:一张1024分辨率的图片成本约0.034美元,价格只有Nano Banana 2的一半,Nano Banana Pro的四分之一。

速度砍了,价格也砍了,但生图和图像编辑能力并没有缩水。Nano Banana 2 Lite的文字渲染效果依然出色,在benchmark上和Grok等模型处于同一水平线。

谷歌的建议很直接:如果还在用初代Nano Banana,赶紧换。Lite版各项关键指标已经全方位碾压了。

双剑合璧

等等,别急着走。

本以为这只是两款并行的模型发布,没想到谷歌还有新花样。

真正的神奇之处,在于将这些模型串联起来使用。

AIGC创作需要反复迭代,素材管理一直是个麻烦。现在有了这两个模型,流程彻底打通了——图像生成和视频创作无缝衔接,不用再反复上传文件。

具体操作很简单:先用Nano Banana 2 Lite高速出图,再把生成的图像作为参考素材喂给Gemini Omni Flash,一键转化成视频。

为了展示这套1+1>2的魔法Workflow,谷歌专门做了三个Demo APP:

1、Anywhere

自拍一张或者上传照片,NB2 Lite瞬间把你P到几十个地标景点里。点一下图片,Omni Flash就把静态景点变成动态短片。赛博旅游,这下也端到端了。

2、Space Lift

这个有点吓人。上传一张房间照片,NB2 Lite先出各种装修风格方案,找到喜欢的,点视频按钮,Omni直接生成一段电影级空间漫游。配合Genie世界模型,怕是能威脅到不少传统设计软件公司。

3、Omni product studio

跨境电商的福音来了。给产品拍张白底图,NB2 Lite自动生成各种场景化商品图,Omni Flash再把这些静态图变成电商短视频。从「产品」到「广告素材」,全链路自动跑完。

所以,多模态到底有什么用?

这个问题谷歌肯定被问过无数次了。2026年的今天,Coding几乎就是模型智商的代名词,每家都在死磕代码。但谷歌非要死磕多模态,图什么?

AGI叙事那一套就不展开了。短期来看,这套多模态模型确实能赋能旗下不少产品——Stitch是一个,Pixel内置的P图工具也是一个,NotebookLM的横空出世更是让人眼前一亮。

这次发布的两个新模型,让人看到了多模态在垂直场景落地的更多潜力。电商、装修、短视频……这些业务的需求是真的,钱也是真的。加上有安卓生态加持,商业化基本不用担心。

Coding谷歌暂时追不上,但多模态这张牌桌上,谷歌可能是唯一能凑齐一套牌的玩家。

不过话说回来……

Gemini 3.5 Pro到底啥时候来啊!!!

详情可查看官方博客。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:视频版Nano Banana来了:内置Gemini世界知识,原版香蕉出图仅需4秒要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://36kr.com/p/3876405127819521
其他

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-01 21:45
KwalAI Chrome插件 专业高效实用AI智能浏览器在线助手工具

在招聘这个行业中,数据录入的繁琐程度相信大家都有切身体会。每天需要从各类网页、社交平台、招聘站点中搜寻候选人信息,再手动一条条录入系统,既耗时费力又容易出错。今天要介绍的这款Kwal Chrome插件,正是为了彻底解决这一痛点而设计的。什么是 Kwal Chrome 扩展程序 插件?该插件的定位十分

AI热点2026-07-01 21:45
Twinning AI创建AI克隆与粉丝聊天获利

网红经济正在进化——Twinning AI带来的玩法是:粉丝可以直接跟你的人工智能分身聊天,而你,每次互动都能收到真金白银。它集成了专业的声音克隆、文本和语音消息,以及数据分析能力,让粉丝互动变得既有趣又能变&现。 什么是Twinning AI? 简单来说,Twinning AI允许网红创建一个属于

AI热点2026-07-01 21:45
Invoicemint人工智能发票与财务管理软件

在跨境电商和全球业务快速发展的今天,发票与财务管理工具的重要性日益凸显。AI技术的加入,让这些原本繁琐的流程实现了质的飞跃。Invoicemint 正是这样一款专注全球企业的智能发票与财务管理软件——它不只是一个简单的发票生成器,而是一套覆盖从开票、对账到税务合规、催款的全链路解决方案。 什么是In

AI热点2026-07-01 21:45
MyWhy实时AI语音心理治疗师

想象一下,你随时都能找到一个倾听者——不带任何偏见,不会感到疲惫,而且完全匿名。这听起来像科幻小说里的情节,但现在已经成为现实。MyWhy 就是这样一款 AI 心理治疗应用,它将专业的情感支持装进你的口袋,让心理健康服务不再是奢侈品,而是像打开手机一样触手可及。什么是MyWhy?简单来说,MyWhy

延伸阅读