数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

视频版Nano Banana来了：内置Gemini世界知识，原版香蕉出图仅需4秒

AI热点日报时间：2026-07-01

热点解读

虽然Coding还是一坨，但谷歌搞「多模态」确实有两把刷子。 Gemini Omni Flash正式开放API，视频版Nano Banana。麻瓜爆改「哈利波特」不再是梦想。且看官方用Gemini Omni表演的这四个数字魔术：   太离谱了，这一致性和文字清晰度，还要啥

说到底，Coding这事儿上谷歌是有点落后，但在多模态这块，人家确实有两把刷子。

今天，Gemini Omni Flash正式开放API——说白了，就是视频版的Nano Banana。效果有多炸裂？看看官方拿它表演的这四个数字魔术就知道了。

这一致性和文字清晰度，还要啥绿幕和特效？直接现场直播奇异博士都不成问题。

与此同时，大家一直念叨的「香蕉」，也等来了一个光速版。

Nano Banana 2 Lite：迄今为止最快、最经济高效的Gemini图像模型。

4秒一张图，1024分辨率成本才2毛出头，这速度只能用「离谱」来形容。

和Nano Banana 2放在一起，速度直接起飞。更别说那个一次生图能干三分钟的GPT Image 2，差距简直不是一个时代的。

怪不得Gemini 3.5 Pro憋半天不出来，敢情时间全花在多模态上了是吧，哈萨比斯？

Gemini Omni Flash

这个模型早在今年Google I/O上就亮过相，把Gemini的多模态推理能力和视频生成、编辑深度结合，当时就引发了不少关注。如今正式通过API和Google AI Studio向开发者开放，能基于文本、图像、视频等多种输入直接生成和编辑视频。

来看它的四项核心能力：

对话式视频编辑——用自然语言改视频，跟改飞书文档一个感觉；多模态参考——图像、文本、视频可以一起作为输入，场景控制和一致性保持得很稳；现实世界知识——调用Gemini在历史、生物、叙事逻辑方面的知识帮你构建视频，不用再写三页Prompt描述建筑风格；文字与动作同步——简单提示词就能把文字和图形直接关联到视频动作上。

价格也很有竞争力，每秒视频产出只要0.10美元，跟Veo 3.1 Fast一个价位。定位上，Omni Flash更像轻量版的视频生成模型，但特别强调了Gemini的世界知识整合，整个生态也在全面朝Gemini层靠拢。

不过谷歌也挺坦诚，主动列了不少现阶段的局限：目前只支持10秒视频；不支持音频参考上传和场景扩展；API虽然能接收最长3秒的视频作为参考素材，但模型还没法正确处理这类输入；场景切换和运镜时的人物一致性也还有待改进。

Nano Banana 2 Lite

这个模型（官方代号 gemini-3.1-flash-lite-image）专为高速而生。优化方向很明确：那些对延迟极度敏感、需要批量处理大量图像的实时场景——电商素材批量生成、广告创意快速迭代、自动化内容流水线，就是它的主战场。

两大核心卖点：

光速：出图延迟大约4秒，是Nano Banana 2的五分之一（后者约20秒）。白菜价：一张1024分辨率的图片成本约0.034美元，价格只有Nano Banana 2的一半，Nano Banana Pro的四分之一。

速度砍了，价格也砍了，但生图和图像编辑能力并没有缩水。Nano Banana 2 Lite的文字渲染效果依然出色，在benchmark上和Grok等模型处于同一水平线。

谷歌的建议很直接：如果还在用初代Nano Banana，赶紧换。Lite版各项关键指标已经全方位碾压了。

双剑合璧

等等，别急着走。

本以为这只是两款并行的模型发布，没想到谷歌还有新花样。

真正的神奇之处，在于将这些模型串联起来使用。

AIGC创作需要反复迭代，素材管理一直是个麻烦。现在有了这两个模型，流程彻底打通了——图像生成和视频创作无缝衔接，不用再反复上传文件。

具体操作很简单：先用Nano Banana 2 Lite高速出图，再把生成的图像作为参考素材喂给Gemini Omni Flash，一键转化成视频。

为了展示这套1+1>2的魔法Workflow，谷歌专门做了三个Demo APP：

1、Anywhere

自拍一张或者上传照片，NB2 Lite瞬间把你P到几十个地标景点里。点一下图片，Omni Flash就把静态景点变成动态短片。赛博旅游，这下也端到端了。

2、Space Lift

这个有点吓人。上传一张房间照片，NB2 Lite先出各种装修风格方案，找到喜欢的，点视频按钮，Omni直接生成一段电影级空间漫游。配合Genie世界模型，怕是能威脅到不少传统设计软件公司。

3、Omni product studio

跨境电商的福音来了。给产品拍张白底图，NB2 Lite自动生成各种场景化商品图，Omni Flash再把这些静态图变成电商短视频。从「产品」到「广告素材」，全链路自动跑完。

所以，多模态到底有什么用？

这个问题谷歌肯定被问过无数次了。2026年的今天，Coding几乎就是模型智商的代名词，每家都在死磕代码。但谷歌非要死磕多模态，图什么？

AGI叙事那一套就不展开了。短期来看，这套多模态模型确实能赋能旗下不少产品——Stitch是一个，Pixel内置的P图工具也是一个，NotebookLM的横空出世更是让人眼前一亮。

这次发布的两个新模型，让人看到了多模态在垂直场景落地的更多潜力。电商、装修、短视频……这些业务的需求是真的，钱也是真的。加上有安卓生态加持，商业化基本不用担心。

Coding谷歌暂时追不上，但多模态这张牌桌上，谷歌可能是唯一能凑齐一套牌的玩家。

不过话说回来……

Gemini 3.5 Pro到底啥时候来啊！！！

详情可查看官方博客。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：视频版Nano Banana来了：内置Gemini世界知识，原版香蕉出图仅需4秒要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://36kr.com/p/3876405127819521

其他

上一篇：MiMo Code AI程序员如何确保代码符合业务需求

下一篇：远程SSH环境安装配置文心快码(Baidu Comate)

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周KwalAI Chrome插件专业高效实用AI智能浏览器在线助手工具 02 / 本周Twinning AI创建AI克隆与粉丝聊天获利 03 / 本周Invoicemint人工智能发票与财务管理软件 04 / 本周MyWhy实时AI语音心理治疗师 05 / 本周新一代专业EHVA对话式人工智能电话呼叫平台

01 / 本月KwalAI Chrome插件专业高效实用AI智能浏览器在线助手工具 02 / 本月Twinning AI创建AI克隆与粉丝聊天获利 03 / 本月Invoicemint人工智能发票与财务管理软件 04 / 本月MyWhy实时AI语音心理治疗师 05 / 本月新一代专业EHVA对话式人工智能电话呼叫平台

热点快看

07-01 21:45KwalAI Chrome插件专业高效实用AI智能浏览器在线助手工具 07-01 21:45Twinning AI创建AI克隆与粉丝聊天获利 07-01 21:45Invoicemint人工智能发票与财务管理软件 07-01 21:45MyWhy实时AI语音心理治疗师 07-01 21:44新一代专业EHVA对话式人工智能电话呼叫平台

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别