谷歌发布两款全新AI模型,打通多媒体创作工作流
谷歌发布两款AI模型:图像模型NanoBanana2Lite最快4秒生成单张,成本仅0 034美元;视频模型GeminiOmniFlash每秒0 10美元,支持实时交互式编辑与调整。二者可协同将静态草图快速转为动态视频,并集成SynthID数字水印,实现低成本高效创作,助力内容生产。
7月1日,谷歌官方发布重磅消息——两款全新人工智能模型正式亮相,核心目标非常明确:帮助开发者和内容创作者在多模态内容生成领域实现更高效率、更低成本。
首先介绍图像模型,名为Nano Banana 2 Lite。用四个字概括就是:快速、经济、稳定、强大。它最快仅需4秒即可完成从文本到图像的生成,单张1K分辨率图片的成本更是低至0.034美元。这意味着什么?与行业其他方案相比,这种性价比堪称颠覆性。更重要的是,它的设计初衷正是针对高并发场景和实时原型开发——换句话说,你反复试错、快速迭代的成本门槛被大幅降低。目前开发者已能通过Google AI Studio和Gemini API直接接入,后续还将逐步整合到搜索AI模式等面向消费者的产品中。
与之搭配的还有视频生成模型Gemini Omni Flash,目前已进入公开预览阶段。它支持通过自然语言指令进行交互式视频编辑,生成费用为每秒0.10美元。别小看这个定价,它意味着轻量级团队甚至个人创作者也能以相对可控的成本尝试视频生成。
更有趣的是,这两款模型可以协同工作。举个例子:你首先在Nano Banana 2 Lite中快速生成一组静态画面草图,然后直接导入Gemini Omni Flash一键转成动态视频——从创意构思到成片输出,整个开发周期被显著压缩。这才是真正的降维打击:不是单个模型强大,而是组合起来更加好用。
在安全层面,两者都建立在谷歌的安全基础设施之上,并集成了SynthID数字水印技术。也就是说,在追求效率和低成本的同时,可追溯性和透明度同样被置于重要位置。

你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:谷歌发布两款全新AI模型,打通多媒体创作工作流要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点OmniParser是微软AI驱动的SaaS工具,基于YOLOv8和BLIP-2,将UI截图与漫画页面解析为结构化数据,支持UI元素检测、漫画面板分析、对话框及人脸识别,适用于自动化测试、漫画翻译等场景。
通义灵码是贯穿开发全流程的智能编码助手,具备代码智能生成、研发智能问答、多编程语言及编辑器支持、代码安全隐私保障四大核心能力,适用于学生、新手及企业开发者等多类人群,提升编码效率。
基于人工智能的自动化道路巡逻和资产数据收集方案,通过车载相机自动采集路面及周边资产数据,识别裂缝、坑槽等病害并建立数字化台账,同时自动删除隐私图像,实现从被动响应向主动预防的转变,降低巡检成本。
阿里旗下通义智文是一款智能阅读工具,支持网页、论文、图书和自由阅读四种场景,帮助用户快速提取核心观点,节省阅读时间,适合学生、研究人员及职场人士高效处理大量文本。
- 日榜
- 周榜
- 月榜
热点快看
