谷歌AI发布会颠覆搜索未来

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

谷歌AI发布会颠覆搜索未来

热心网友时间：2026-05-20

转载

月活跃用户突破9亿，每月处理的Token数量高达3200万亿，Nano Banana模型生成的图片总量已超过500亿张……在今天凌晨刚刚落幕的Google I/O开发者大会上，Google CEO Demis Hassabis开场便公布了这组令人震撼的数据。

过去一年，人工智能无疑是全球科技发展的核心驱动力。而Gemini在Google内部的战略定位，也已发生深刻转变——它不再仅仅是一个独立的应用，而是演变为驱动Google所有产品的核心AI底层引擎。

今年的发布会，节奏清晰明快：从核心AI模型的能力升级讲起，逐步延伸到编程工具与智能体（Agent）产品，最终将这些强大的AI能力全面注入Google庞大的产品生态。从搜索、Gemini应用、Flow、Spark、Chrome浏览器、XR眼镜到电商场景，无一不在接受AI的深度重塑与赋能。

Gemini Omni登场，视频生成迎来“Nano Banana”式突破

发布会最先重点介绍的是名为Gemini Omni的全新模型。DeepMind CEO将其描述为一个能够实现“从任意输入创造任意内容”的突破性进展。本质上，它将Gemini强大的逻辑推理能力与Google已有的生成式媒体模型（如Veo）深度融合，旨在显著提升AI对真实世界的理解力、多模态内容生成与编辑能力。

要知道，Veo、Nano Banana、Genie等模型已经能够生成视频、图片和交互式模拟内容，但Gemini Omni试图更进一步，开始处理动能、重力等更接近物理世界的复杂问题。

现场演示的案例非常直观：用户只需输入“生成一个解释蛋白质折叠过程的黏土动画”这样的提示，Omni就能将抽象的科学概念转化为生动易懂的视频内容。它还支持更自然的视频编辑——上传你自己的视频，然后通过对话的方式修改风格、添加元素、调整细节，甚至能将一个普通圆形转化为黑洞视觉效果，或将夜晚散步的场景渲染出电影般的戏剧性画面。

按照Google的规划，Gemini Omni将从视频生成起步，未来逐步走向“任意输入到任意输出”的终极目标。这也解释了为何Google始终坚持将Gemini设计为原生多模态模型。

目前，Omni家族的首个模型Gemini Omni Flash已在相关产品中上线，更强大的Omni Pro将在后续公布。Gemini应用中的Omni功能，也已面向Google AI Plus、Pro和Ultra订阅用户开放。

这背后的战略野心显而易见：Gemini Omni不只是一个视频生成工具。Google正试图将其纳入构建“世界模型”的宏大叙事——模型不仅要生成画面，更要理解画面中的物理关系、运动逻辑与场景语义。当它深度融入Gemini App、Google Flow和YouTube Shorts等应用后，Google的创意工具矩阵将从图片编辑，正式扩展到视频创作与编辑的新战场。

Gemini 3.5 Flash上线，AI编程进入极速时代

如果说Gemini Omni代表了生成与编辑能力的飞跃，那么新推出的Gemini 3.5 Flash，则树立了速度、成本与执行效率的新标杆。

作为Gemini 3.5系列的首批模型，3.5 Flash重点瞄准了智能体编程（Agentic Coding）、长周期任务和真实工作流自动化。基准测试显示，相比前代的3.1 Pro，3.5 Flash在几乎所有核心指标上都有显著提升，尤其是在代码生成能力和GDPVal这类贴近真实经济任务的评测中表现突出。

速度是其最大的卖点。Google宣称，3.5 Flash输出token的速度比其他前沿模型快4倍，而在经过专门优化的Antigravity环境中，速度提升甚至可达惊人的12倍。

这里有一个值得玩味的数据：今年3月，Google内部开发任务每天处理约5000亿token，随后每隔几周这个数字就翻一番，目前日均处理量已超过3万亿token。Google将这种现象称为一个强大的“反馈循环”——利用大规模的真实使用数据，持续驱动模型性能的改进。

与模型同步亮相的，是Antigravity的2.0版本。它从一个“由智能体驱动的集成开发环境（IDE）”，升级为一个独立的桌面应用，重心彻底转向“智能体优先”。开发者的体验不再是让AI在编辑器里辅助写代码，而是通过与Agent对话、利用Agent的产出物、协调多Agent合作来完成整个复杂的开发任务。

Antigravity 2.0加入了完整的命令行界面（CLI）、Antigravity SDK、Gemini音频模型的原生语音支持，并深度集成了Android、Firebase、Google AI Studio等服务。目前，它已作为独立桌面应用向全球开发者开放。

发布会现场用一个高强度的演示，清晰地揭示了Antigravity 2.0的野心：从零开始，让智能体构建一个可运行的操作系统。这个任务由93个子智能体并行执行，持续12小时，发起了超过1.5万次模型请求，处理了26亿token，最终从空项目中生成了调度器、内存管理、文件系统等核心模块。

Google表示，同样的任务在Gemini 3.1 Pro上无法完成，而使用Gemini 3.5 Flash，消耗的API Credits成本不到1000美元。现场还演示了这个生成的操作系统成功运行了SL小火车程序和经典游戏《Doom》。当系统因缺少视频和键盘驱动而无法运行时，Antigravity又能自动生成并修复相关代码。

据称，类似的测试已应用于照片编辑套件、实时消息应用、多用户协作平台等项目，将原本需要数天的工程开发工作压缩到数小时甚至更短。Gemini 3.5 Flash现已面向所有用户开放，覆盖Google产品及API。而更强大的Gemini 3.5 Pro仍在内部优化中，预计下个月发布。

从搜索框到信息智能体，Google重新定义AI搜索

在模型和开发工具之后，发布会的焦点转向了Google的立身之本：搜索。用一句话概括就是，Google搜索正在与AI搜索深度融合，划上等号。

数据显示，搜索的“AI模式”月活用户已超过10亿，查询量自推出以来每个季度都在翻倍增长。从今天起，AI模式将全面升级至Gemini 3.5，新的智能搜索框也开始推送。它支持文本、图片、文件和视频输入，并能在用户输入问题时，主动给出AI建议。

原有的“AI概览”和“AI模式”被合并为更连贯、统一的搜索体验。用户可以先在主搜索结果页看到AI生成的概括性回答，再一键进入AI模式继续深入追问，对话上下文将得到完整保留。这一新体验已在发布会当天面向全球桌面和移动端用户上线。

更大的变化在于“搜索智能体”。今年夏天，用户将能在搜索中创建专属的信息Agent，让它持续跟踪特定主题。例如，监控“市盈率低于15、现金流为正、负债较低的大型生物科技股票”，或是长期跟踪某个城市的租房市场行情、限量球鞋的发售动态。一旦预设条件发生变化，Agent会主动向用户发送综合更新报告。

Google还将Antigravity的智能体编程能力引入了搜索。未来的搜索结果将不再局限于网页链接、摘要或信息卡片，而是能为具体问题生成交互式界面。比如，当用户询问“黑洞如何影响时空”时，搜索可能会生成一个可交互的可视化组件；继续追问“双黑洞如何产生引力波”，搜索则会重新生成一个带可调参数的动态物理模拟界面。这项名为“Generative UI with Antigravity”的功能，将于今年夏天免费向所有用户推出。

更复杂的自定义体验也在路上。发布会现场展示了一个“周末计划器”，搜索会结合实时天气、地图信息、用户历史偏好、Gmail邮件和日历日程，生成一个可修改、可分享、并能一键同步到日历的个性化规划工具。这类高度个性化的智能体验，将在未来几个月率先面向订阅用户开放。

关机也能运行，Gemini Spark将智能体能力带入个人生活

在消费端，最重要的新产品非Gemini Spark莫属。这是一个运行在Google Cloud专用虚拟机上的个人AI智能体，可以7x24小时不间断地执行任务。

它由Gemini 3.5和Antigravity harness驱动，擅长处理长时间的后台任务。这意味着，即使用户关闭了电脑或手机，Spark仍能在云端继续工作。初期它将接入Google自家工具，并在未来几周通过MCP协议支持第三方工具。

发布会展示了Spark的几个典型应用场景：用户可以命令它汇总过去一周Gemini Live的所有发布与进展，从Docs文档、Gmail邮件和聊天记录中提取关键信息，并以用户的个人写作风格自动生成团队汇报邮件。也可以让它管理一个街区派对，维护Google Sheets中的RSVP表格，跟踪每位邻居携带的物品，给未回复的邻居生成提醒邮件草稿，并自动创建Google Slides宣传页。

Spark还支持手机端的语音输入。用户可以一次性说出多项复杂指令，例如“把所有与Sundar的会议在日历中标记为亮粉色”、“给新邻居写一封邀请信”、“创建一个孩子本学期结束前的待办事项文档”。Spark会自动将这些指令拆解为多个独立任务，在后台并行执行，结果可在手机和电脑间无缝同步查看。

Gemini Spark本周已面向可信测试者开放，下周将以Beta测试形式面向美国的Google AI Ultra订阅用户推出。与此同时，Google推出了每月100美元的新Ultra入门计划，并将原最高档Ultra计划月费从250美元降至200美元。今年夏天晚些时候，Spark将进驻Chrome浏览器，成为一个能在网页中执行任务的智能体。

Gemini App大改版，还有Google版“AI晨报”

Gemini App本身也迎来了一次脱胎换骨的更新。Google引入了全新的设计语言“Neural Expressive”，融入了流体动画、鲜艳色彩、新字体和触觉反馈。

新版App不再将回答呈现为大段沉闷的纯文字，而是会根据内容类型，实时生成更适合阅读和操作的动态布局，例如交互式图片画廊、时间线、嵌入式视频等。这一新设计现已面向Android、iOS和网页端全球推送。

Gemini Live功能也被重新设计，打开即可进入实时语音对话，区域口音选择将在未来几周推出。

此外，App中还新增了“每日简报”（Daily Brief）。这是一个面向晨间场景的个性化摘要Agent，它会综合Gmail、日历、任务列表等信息，整理出用户当天需要关注的所有重要事项，并提供下一步的行动入口。该功能今天起已面向美国的Google AI Plus、Pro和Ultra订阅用户推出。

在宏大的Gemini叙事之外，Google也更新了几款日常产品。Google Maps完成了十年来最大升级，新增“询问地图”功能，允许用户提出更复杂的长问题。例如，发布会上演示的场景是：孩子掉进了鸭塘，而婚礼还有30分钟就要开始，用户可以直接问“哪里可以步行买到一条新裙子？”

Google Docs获得了新的语音创建能力。用户无需构思精确的提示词，可以直接用语音说出想法，让Gemini从云端硬盘调取简历、从Gmail查找活动信息，并自动生成一份Google Docs草稿。该功能将于今年夏天面向Pro和Ultra订阅用户推出，类似的语音能力也将进入Gmail。

随着生成式内容的爆炸式增长，内容来源识别变得至关重要。Google透露，其水印技术SynthID推出三年来，已为超过1000亿张图片和视频，以及相当于6万年时长的音频内容添加了不可见的识别标记。接下来，SynthID和内容凭证验证将扩展到搜索和Chrome浏览器。

用户可以通过圈选搜索，或在Chrome中右键询问，来识别内容是否由AI生成。系统会明确显示内容来源是AI生成、相机拍摄，还是曾被生成式AI工具编辑过。

Google还宣布，OpenAI、Kakao和ElevenLabs将采用其最新的SynthID 2技术。此前，英伟达也已加入该体系。对Google而言，SynthID不仅是一项安全功能，更是争夺AI内容透明度与行业标准话语权的重要一环。

Google创意全家桶，全面赋能图片、设计与视频创作

在创意工具领域，Google此次密集发布了一系列重磅产品。Google Pics是Workspace套件中的新成员，专注于图片创建与编辑，适用于派对海报、信息图、宣传图等场景。用户可以从一张基础图开始，删除元素、调整对象大小、编辑和翻译文字。所有生成内容都会带有SynthID水印。Google Pics将于今年夏天推出。

设计产品Stitch也迎来重要更新。用户可以通过一句提示词生成应用界面原型，然后通过文字或语音指令继续修改，例如放大标题、调整菜单布局、突出更多披萨选项。Stitch支持将设计稿导出为代码或直接发布，相关更新现已上线。

视频创作工具Google Flow的更新尤为值得关注。随着Gemini Omni的融入，用户现在可以基于原始视频改变环境、添加视觉效果、引入新角色，同时尽力保留原有的表演。Flow还加入了新的智能体，支持一次执行多个动作，例如从单张图片生成16个不同机位的视频，或将一组清晨场景批量转换为深夜场景。

新增的Flow Tools允许用户在Flow中创建自己的创意工具，比如视频特效、手绘动画和文字分层工具，并支持分享和二次创作。而Google Flow Music则能将一段简单的钢琴即兴片段，扩展成带有特定风格方向的完整音乐demo。Google Flow和Google Flow Music的这些新功能均已上线。

押注智能眼镜，Google再闯下一代人机交互入口

在硬件部分，Google将其与三星合作的操作系统级平台Android XR，从头显、XR设备，进一步扩展到了智能眼镜形态。该平台针对高通骁龙芯片进行了深度优化。

Google将AI眼镜分为两类：一类是带有小型镜片的显示眼镜，另一类是音频眼镜。显示眼镜在去年的I/O大会上已有展示，今年首批开发者已开始为其创建显示体验，可信测试者计划将在今年晚些时候扩大。

而更早上市的将是音频眼镜。Google宣布，首批音频眼镜将于今年秋季推出，由三星参与硬件和体验构建，Warby Parker与Gentle Monster负责眼镜设计。这些眼镜通过连接手机使用，支持Android和iOS系统。Gemini的回答将通过耳机进行私密播放，而非显示在镜片上。

发布会演示了多个应用场景：用户可以通过眼镜让Gemini导航到上周与朋友见面的地点，并中途加入一家咖啡店；也可以让Gemini打开DoorDash自动下单咖啡，等待用户确认；还可以让它总结静音的消息，或将家庭晚餐安排写入日历。眼镜还能与手表联动，让用户拍摄现场照片，并用Nano Banana生成卡通图像，在手表上预览。

发布会的最后，Gemini的应用场景延伸到了网络安全领域。Google介绍了CodeMender，这是一个能够自动寻找并修复关键软件漏洞的代码安全Agent。Google将先邀请一批专家测试其API，随后进行更广泛的推广。

结语：从免费服务到订阅基建，Google的AI商业命题

整场发布会看下来，信息密度高到让人应接不暇。然而，当这些强大的AI功能真正面向数千万乃至数亿用户开放时，一个最现实的问题便浮出水面：这笔庞大的算力开销，Google究竟要如何赚回来？

过去二十多年，Google代表的是一种经典的免费互联网模式。用户用注意力和数据换取服务，Google则通过广告和分发盈利。这套模式让它成为了互联网时代最强大的基础设施公司。

但大模型推理的成本，与处理一次传统搜索查询完全不在一个量级。长上下文记忆、多模态生成、跨应用智能体、企业级自动化……这些炫酷能力背后，都是持续运行的巨额算力消耗。AI越是深入，Google就越难继续用“免费功能升级”的老办法来消化成本。

这就是为什么，整场I/O大会看似在讲体验升级，其背后指向的却是清晰的订阅模式、企业合同、算力账单和长期服务费。免费的入口当然不会消失，那仍是Google获取用户、数据和生态地位的基石。但在这些入口之上，Google正在叠加一个全新的智能服务层：更强的模型、更长的记忆、更深的系统权限、更复杂的任务执行，以及更稳定的企业级支持。