视频版 Nano Banana 来了！内置 Gemini 世界知识；原版香蕉出图仅需 4 秒 | BestBlog...

AI热点日报时间：2026-07-01

热点解读

Jay 发自凹非寺量子位 | 公众号 QbitAI虽然Coding还是一坨，但谷歌搞「多模态」确实有两把刷子。Gemini Omni Flash正式开放API，视频版Nano Banana。麻瓜爆改「哈利波特」不再是梦想。且看官方用Gemini Omni表演的这四个数字魔术：太离谱了，这一致性和

谷歌这次在多模态上的动作，确实有点意思。虽然Coding能力还是被诟病，但要说搞“多模态”，谷歌手里攒的牌确实不少。 Gemini Omni Flash 这个视频版“Nano Banana”模型，今天正式开放API了。官方用四个数字魔术演示了一波效果，直接看下来，这一致性和文字清晰度，绿幕和特效都省了，现场直播奇异博士既视感。同时，大家一直关注的“香蕉”图像模型，也迎来了一个“光速版”——Nano Banana 2 Lite。官方称这是迄今为止最快、最经济高效的Gemini图像模型。4秒出一张图，1K分辨率图像成本才两毛多，跟Nano Banana 2放一起对比，这个速度提升简直是起飞了。比起来，某些模型一次生图就要3分钟……难怪Gemini 3.5 Pro迟迟没动静，看来资源和精力全扑在多模态上了。其实，2026年Google I/O上首次亮相的Gemini Omni Flash，当时就把多模态推理能力与视频生成、编辑深度结合，引发了不少讨论。现在它通过Gemini API和Google AI Studio正式向开发者开放。核心能力有几个方面：一是对话式视频编辑，用自然语言修改和精修视频，像改文档一样方便；二是多模态参考，能组合图像、文本、视频输入，保持场景控制一致性；三是调用Gemini的世界知识构建视频，不用用户写长篇Prompt描述建筑风格；四是文字与动作同步，通过简单提示词就能把文字图形连接到视频动作。价格方面，每秒视频输出成本0.10美元，跟Veo 3.1 Fast持平。定位上，作为轻量版视频生成模型，Omni Flash更强调Gemini世界知识，生态也全面朝Gemini层靠拢。不过谷歌很坦诚，列了现阶段的一些局限：目前只支持10秒视频生成；暂不支持音频参考上传和场景扩展；API支持最长3秒视频作为参考素材，但模型还无法正确处理这类输入；场景切换和运镜时的人物一致性也有局限。 Nano Banana 2 Lite专为高速处理设计，瞄准对延迟极度敏感、需批量快速处理图像的实时场景，比如电商素材批量生成、广告创意迭代、自动化内容流水线。核心卖点就是光速和低价：出图延迟约4秒，是Nano Banana 2的五分之一；1K图片成本约0.034美元，是Nano Banana 2的一半。但生图和图像编辑能力并没有明显缩水，文字渲染效果依然出色，Benchmark上跟Grok等模型处于同一水平线。所以谷歌建议，如果还在用初代Nano Banana，赶紧换，Lite版在各项关键指标上已经全方位碾压了。更值得关注的是，这两款模型还能串联起来使用。AIGC创作需要反复迭代，素材管理一向麻烦。现在借助它们，图像生成与视频创作无缝衔接——先用Nano Banana 2 Lite高速出图，再把生成的图像作为参考素材喂给Gemini Omni Flash，一键转化成视频。谷歌甚至做了3个Demo APP来展示这个魔法Workflow：Anywhere可以自拍后瞬间P到地标景点，再点一下变动态视频；Space Lift上传房间照片，出装修方案后直接生成电影级空间漫游；Omni product studio则是跨境电商的福音，拍张白底图，出场景化商品图，再变电商短视频——从产品到广告素材，全链路自动跑完。问题来了：在Coding几乎等同于模型智商代名词的2026年，各家都在Coding上卷生卷死，谷歌死磕多模态，图什么？AGI叙事那套先放一边，短期来看，这套多模态模型确实能赋能旗下很多产品。这次的两个新模型，让人看到多模态在垂直场景的更多潜力——电商、装修、短视频，这些业务需求是真实的，钱也是真实的。加上有安卓生态加持，商业化基本不用担心。Coding谷歌暂时追不上，但多模态这张牌桌上，谷歌可能是唯一能组齐一套牌的玩家。不过……Gemini 3.5 Pro到底什么时候来啊？

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：视频版 Nano Banana 来了！内置 Gemini 世界知识；原版香蕉出图仅需 4 秒 | BestBlog...要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.bestblogs.dev/article/8fc2e8ed?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item

其他

上一篇：Gemini 图像识图与深度分析完整实操教程，图文联动一站式解决办公、科研、电商需求

下一篇：算力告急：谷歌限制 Meta 访问 Gemini 模型，促使 Meta 加速自主研发

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周DeepSeek开源高效专家并行通信库DeepEP 02 / 本周捕捉光子时间信息的新型AI动画3D图像制作法 03 / 本周阿里开源万相2.1，AI视频领域的DeepSeek来了 04 / 本周智能自动化如何优化医疗行业资源配置 05 / 本周字节MarsCode接入DeepSeek，AI深度思考教你学编程

01 / 本月DeepSeek开源高效专家并行通信库DeepEP 02 / 本月捕捉光子时间信息的新型AI动画3D图像制作法 03 / 本月阿里开源万相2.1，AI视频领域的DeepSeek来了 04 / 本月智能自动化如何优化医疗行业资源配置 05 / 本月字节MarsCode接入DeepSeek，AI深度思考教你学编程

热点快看

07-01 17:25DeepSeek开源高效专家并行通信库DeepEP 07-01 17:24捕捉光子时间信息的新型AI动画3D图像制作法 07-01 17:24阿里开源万相2.1，AI视频领域的DeepSeek来了 07-01 17:24智能自动化如何优化医疗行业资源配置 07-01 17:24字节MarsCode接入DeepSeek，AI深度思考教你学编程

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别