面包屑图标 当前位置: 首页
AI资讯
热点详情

视频版 Nano Banana 来了!内置 Gemini 世界知识;原版香蕉出图仅需 4 秒 | BestBlog...

AI热点日报
AI热点日报时间:2026-07-01
热点解读

Jay 发自 凹非寺 量子位 | 公众号 QbitAI虽然Coding还是一坨,但谷歌搞「多模态」确实有两把刷子。Gemini Omni Flash正式开放API,视频版Nano Banana。麻瓜爆改「哈利波特」不再是梦想。且看官方用Gemini Omni表演的这四个数字魔术:太离谱了,这一致性和

谷歌这次在多模态上的动作,确实有点意思。虽然Coding能力还是被诟病,但要说搞“多模态”,谷歌手里攒的牌确实不少。 Gemini Omni Flash 这个视频版“Nano Banana”模型,今天正式开放API了。官方用四个数字魔术演示了一波效果,直接看下来,这一致性和文字清晰度,绿幕和特效都省了,现场直播奇异博士既视感。 同时,大家一直关注的“香蕉”图像模型,也迎来了一个“光速版”——Nano Banana 2 Lite。官方称这是迄今为止最快、最经济高效的Gemini图像模型。4秒出一张图,1K分辨率图像成本才两毛多,跟Nano Banana 2放一起对比,这个速度提升简直是起飞了。比起来,某些模型一次生图就要3分钟……难怪Gemini 3.5 Pro迟迟没动静,看来资源和精力全扑在多模态上了。 其实,2026年Google I/O上首次亮相的Gemini Omni Flash,当时就把多模态推理能力与视频生成、编辑深度结合,引发了不少讨论。现在它通过Gemini API和Google AI Studio正式向开发者开放。核心能力有几个方面:一是对话式视频编辑,用自然语言修改和精修视频,像改文档一样方便;二是多模态参考,能组合图像、文本、视频输入,保持场景控制一致性;三是调用Gemini的世界知识构建视频,不用用户写长篇Prompt描述建筑风格;四是文字与动作同步,通过简单提示词就能把文字图形连接到视频动作。 价格方面,每秒视频输出成本0.10美元,跟Veo 3.1 Fast持平。定位上,作为轻量版视频生成模型,Omni Flash更强调Gemini世界知识,生态也全面朝Gemini层靠拢。不过谷歌很坦诚,列了现阶段的一些局限:目前只支持10秒视频生成;暂不支持音频参考上传和场景扩展;API支持最长3秒视频作为参考素材,但模型还无法正确处理这类输入;场景切换和运镜时的人物一致性也有局限。 Nano Banana 2 Lite专为高速处理设计,瞄准对延迟极度敏感、需批量快速处理图像的实时场景,比如电商素材批量生成、广告创意迭代、自动化内容流水线。核心卖点就是光速和低价:出图延迟约4秒,是Nano Banana 2的五分之一;1K图片成本约0.034美元,是Nano Banana 2的一半。但生图和图像编辑能力并没有明显缩水,文字渲染效果依然出色,Benchmark上跟Grok等模型处于同一水平线。所以谷歌建议,如果还在用初代Nano Banana,赶紧换,Lite版在各项关键指标上已经全方位碾压了。 更值得关注的是,这两款模型还能串联起来使用。AIGC创作需要反复迭代,素材管理一向麻烦。现在借助它们,图像生成与视频创作无缝衔接——先用Nano Banana 2 Lite高速出图,再把生成的图像作为参考素材喂给Gemini Omni Flash,一键转化成视频。谷歌甚至做了3个Demo APP来展示这个魔法Workflow:Anywhere可以自拍后瞬间P到地标景点,再点一下变动态视频;Space Lift上传房间照片,出装修方案后直接生成电影级空间漫游;Omni product studio则是跨境电商的福音,拍张白底图,出场景化商品图,再变电商短视频——从产品到广告素材,全链路自动跑完。 问题来了:在Coding几乎等同于模型智商代名词的2026年,各家都在Coding上卷生卷死,谷歌死磕多模态,图什么?AGI叙事那套先放一边,短期来看,这套多模态模型确实能赋能旗下很多产品。这次的两个新模型,让人看到多模态在垂直场景的更多潜力——电商、装修、短视频,这些业务需求是真实的,钱也是真实的。加上有安卓生态加持,商业化基本不用担心。Coding谷歌暂时追不上,但多模态这张牌桌上,谷歌可能是唯一能组齐一套牌的玩家。 不过……Gemini 3.5 Pro到底什么时候来啊?
热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:视频版 Nano Banana 来了!内置 Gemini 世界知识;原版香蕉出图仅需 4 秒 | BestBlog...要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.bestblogs.dev/article/8fc2e8ed?utm_source=rss&utm_medium=feed&utm_campaign=resources&entry=rss_article_item
其他

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-01 17:25
DeepSeek开源高效专家并行通信库DeepEP

DeepEP:为混合专家模型(MoE)量身打造的高效通信库 在大规模模型训练与推理中,混合专家(MoE)模型的通信效率一直是影响性能的关键瓶颈。本文要介绍的DeepEP,正是为解决这一难题而生的——一个专为专家并行(EP)场景优化的通信库。它通过精细的数据传输与资源调度机制,切实实现了降本增效。 D

AI热点2026-07-01 17:24
捕捉光子时间信息的新型AI动画3D图像制作法

想象一下,你面对一堵墙大喊一声,仅凭回声就能判断墙后是一只猫还是一匹马——这听起来是不是很像科幻情节?然而,有一支科研团队真的实现了类似效果的“摄影”技术。他们并非依靠回声来区分动物,而是借助光子的“时间回响”来重构三维场景。 近期发表在《Optica》期刊上的一篇论文中,来自英国、意大利和荷兰的研

AI热点2026-07-01 17:24
阿里开源万相2.1,AI视频领域的DeepSeek来了

阿里深夜开源万相2 1,AI视频领域迎来真正的“DeepSeek”时刻。 昨天的AI圈消息接连不断。凌晨2点半,Claude发布了3 7 Sonnet;凌晨5点半,阿里推出推理模型QwQ-Max预览版;上午10点,DeepSeek开源了DeepEP代码库;到了晚上10点20,阿里的视频生成模型万相2

AI热点2026-07-01 17:24
智能自动化如何优化医疗行业资源配置

智能自动化如何为医疗保健行业提供资源 先聊聊智能自动化在医疗行业扮演的角色。它本质上是人工智能与自动化的结合体,组织一旦将其落地,就能实现端到端流程的自动化,效率提升不止一个量级。普华永道甚至断言,这项技术正在开启第四次工业革命,或者说第二次机器时代,因为它正在碘伏并创造全新的商业模式。最初,它更多

延伸阅读