谷歌研究团队详解DeepMind新一代AI系统：如何反击GPT-5

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

谷歌研究团队详解DeepMind新一代AI系统：如何反击GPT-5

热心网友时间：2025-12-12

转载

新智元报道

编辑：定慧

【新智元导读】谷歌和OpenAI现在是针尖对麦芒！现在两家公司是用各种新产品互相炮轰对方。

而在GPT-5.2发布前一个多小时，谷歌就率先推出全新版Gemini Deep Research Agent。

谷歌对Gemini深度研究进行了重新构想，使其比以往任何时候都更加强大。

新版Deep Research Agent基于Gemini 3 Pro构建；

通过多步强化学习训练，提高准确性并减少幻觉；

它能够处理海量上下文，并提供引用来源验证提出的每一个观点。

除了Deep Research Agent功能更新，还放出了另外两项全新能力：

开源新网络研究Agent基准DeepSearchQA，验证智能体在网络研究任务中的全面性；

推出全新交互API（Interactions API）。

虽然GPT-5.2刚刚发布无法对比，但谷歌DeepMind产品经理路Lukas Haas在社交平台X上透露：

最新版Gemini Deep Research Agent在谷歌新基准测试上得分46.4%，在BrowseComp上与GPT-5 Pro相当，价格却低了一个数量级。

深度研究，更「深度」了

Gemini Deep Research是一款专为长时间上下文收集与综合任务优化的智能体。

该智能体的推理核心采用迄今为止最具事实准确性的Gemini 3 Pro模型，并经过专门训练，以在复杂任务中减少幻觉生成并最大化报告质量。

通过扩展多步强化学习在搜索中的应用，该智能体能够以高精度自主驾驭复杂的信息环境。

Gemini Deep Research在完整Humanity's Last Exam(HLE)测试集中达到46.4%的领先水平，在DeepSearchQA上取得66.1%的优异成绩，并在BrowseComp测试中获得59.2%的高分表现。

DeepResearch采用迭代式研究规划机制——它会制定查询、阅读结果、识别知识缺口并再次搜索。

本次版本大幅改进了网络搜索功能，使其能够深入获取特定数据。

该智能体经过优化，能够以更低成本生成经过充分研究的报告。

不同于传统的聊天机器人（Chatbot），Deep Research被设计为一个长时程运行的系统，其核心竞争力在于处理「非即时性」的复杂任务。

简单聊聊深度研究

深度研究，算是日常使用AI工具中，最高频的功能了。

毕竟每个月20美元，就能享受到多次「博士级」的服务，何乐而不为。

我的观点就是，深度研究是普通人最能降维打击知识服务的AI工具。

Deep Research，这一类深度研究的智能并非源于单一模型的暴力计算，而是源于其复杂的智能体工作流（Agentic Workflow）。

该工作流模拟了人类专家在面对陌生领域时的认知行为，主要包含规划、执行、推理与报告四个闭环阶段。

当用户提交一个模糊的宏观指令（例如「分析2030年量子传感器的商业化路径」）时，DeepResearch首先启动的是其规划模块。

基于Gemini 3 Pro强大的推理能力，系统不会立即进行搜索，而是通过「后退一步提示」技术，将这一宏观问题拆解为多个子维度的研究路径，如技术成熟度、供应链瓶颈、政策监管环境及主要竞争对手分析。

这一规划过程是动态的。在传统的链式思维中，路径往往是线性的；而在DeepResearch中，规划树是可扩展的。

如果在初步搜索中发现了未预见的新概念，系统会实时修改研究计划，增加新的分支进行深入挖掘。

DeepSearchQA：深度研究智能体的基准测试

在上面的基准测试中，你应该注意到一个叫做DeepSearchQA。

这就是谷歌专门针对深度研究智能体开发的测试基准，一个用于评估智能体在复杂多步骤信息检索任务表现的全新基准。

DeepSearchQA包含涵盖17个领域的900项人工设计的因果链任务，其中每个步骤都依赖于先前的分析。

与传统基于事实的测试不同，DeepSearchQA通过要求智能体生成详尽答案集来评估研究完整性，同时检验研究精确度与信息召回能力。

DeepSearchQA还可作为思考时间效益的诊断工具。

在内部评估中，谷歌发现当允许智能体执行更多搜索和推理步骤时，其性能获得显著提升。

对比pass@8与pass@1的结果，证明了让智能体通过并行探索多条轨迹进行答案验证的价值。

这些结果基于DeepSearchQA的200个提示子集计算得出。

交互API：专为Agent应用开发设计

交互API原生集成了一套专属接口，该接口专为Agent应用开发场景设计，可高效处理交错式消息、思维链、工具调用及其状态信息的复杂上下文管理工作。

除Gemini模型套件外，交互API还提供其首个内置Gemini Deep Research Agent。

下一步，谷歌将扩展其内置Agent，并提供构建和引入其他Agent的功能，这将使开发者能够通过一个API连接Gemini模型、谷歌内置Agent和开发者的定制Agent。

交互API提供了一个单一的RESTful端点，用于与模型和Agent交互。

Interactions API扩展了generateContent的核心功能，为现代智能体应用提供所需特性，包括：

可选服务器端状态：将历史记录管理卸载到服务器的能力。这简化了客户端代码，减少上下文管理错误，并可能通过提高缓存命中率来降低成本。

可解释且可组合的数据模型：专为复杂智能体历史记录设计的清晰架构。您可以对交错排列的消息、思考过程、工具及其结果进行调试、操作、流式处理和逻辑推理。

后台执行：无需维持客户端连接，即可将长时间运行的推理循环卸载到服务器端的能力。

远程MCP工具支持：模型可直接调用模型上下文协议（MCP）服务器作为工具。

随着InteractionsAPI的推出，Google试图重新定义开发者构建AI应用的方式，从「无状态的请求-响应」模式转向「有状态的智能体交互」模式。

目前的LLM API大多是无状态的。开发者必须在客户端维护整个对话历史，并在每次请求时将数万token的上下文发送回服务器。

这不仅增加了延迟和带宽成本，还使得构建复杂的、多步骤的Agent变得异常繁琐。

Interactions API引入了服务器端状态管理。

开发者只需通过/interactions端点创建一个会话，Google的服务器就会自动维护该会话的所有上下文、工具调用结果以及Agent的内部思维状态。

这才是我认为谷歌这个最新API恐怖的地方。

Interactions API最革命性的特性在于它允许开发者直接调用谷歌预训练的高级Agent，而不仅仅是基础模型。

比如开发者可以通过简单的API调用（指定agent=deep-research-pro-preview-12-2025）将Google最顶尖的研究能力嵌入到自己的ERP、CRM或科研软件中。

考虑到DeepResearch一次任务可能消耗数十万token的阅读量和生成量，单次深度研究的成本可能达到数美元。

然而，与其替代的人类初级分析师数小时甚至数天的工作成本相比，这一价格仍具有极高的投资回报率。

DeepMind与英国政府达成合作

最后，还有一个消息值得注意。

在谷歌和OpenAI打生打死意外，谷歌DeepMIind已经在国家层面，展开合作。

DeepMind作为诞生于伦敦的AI巨头，正在通过DeepResearch及其底层技术，与英国政府展开一场规模空前的「AI治国」实验。

这一合作不仅涉及科学探索，更深入到公共行政的毛细血管，特别是在解决英国长期存在的住房危机和规划效率低下问题上取得了突破性进展。

Project Extract：破解城市规划的「数据孤岛」

英国的城市规划系统（Planning System）长期以来被视为阻碍经济增长和住房建设的瓶颈。

每年，地方议会需要处理约35万份规划申请，而大量的历史规划档案仍以纸质、扫描PDF或手绘地图的形式存在。

规划师往往需要花费数小时在一个布满灰尘的档案中寻找几十年前划定的地下管线或保护区边界。

为了解决这一痛点，DeepMind与英国政府AI孵化器（i.AI）合作开发了Extract工具。

这不是一个简单的OCR软件，而是一个基于Gemini多模态推理能力的复杂地理空间智能系统。

非结构化信息理解：

Extract首先利用Gemini的视觉语言能力读取低质量的扫描文档。它不仅能识别文字，还能理解手写注释的语义（例如，识别旁注中的「批准日期」而非「申请日期」），其日期识别准确率达到了94%。

视觉推理与多边形提取：

这是最核心的技术突破。Gemini能够理解地图上的视觉符号语言，例如区分「红色实线」代表的产权边界和「蓝色虚线」代表的排水渠。一旦识别出目标区域，系统会调用OpenCV和SAM等计算机视觉工具，像数字手术刀一样精确地从像素图像中提取出地理多边形，其形状匹配度（IoU）达到了90%。

时空特征匹配：

历史地图的比例尺和参照系往往与现代卫星地图不同。Extract利用LoFTR算法，能够在旧地图和现代地图之间找到共同的特征点（如古老的教堂、路口），计算出精确的变换矩阵，将几十年前的手绘红线精确映射到今天的数字地图坐标系中。

全流程自动化：

通过这一流程，Extract将一份复杂规划文档的处理时间从平均2小时压缩至40秒到3分钟。这意味着一个地方议会每天可以数字化处理上百份积压档案，效率提升了百倍。

目前，Extract已在威斯敏斯特（Westminster）、希灵登（Hillingdon）等四个地区进行试点。

英国政府计划在2026年春季将其推广至全国所有地方议会。

这不仅将释放数千小时的行政人力，更重要的是，它将构建一个全国统一的数字规划数据库，为英国政府承诺的「建设150万套新住房」计划提供数据底座。

这是DeepResearch技术在垂直领域应用的最佳范例——将通用的多模态推理能力转化为具体的行政生产力。

科学新基建：从AlphaFold到自动化材料实验室

在基础科学领域，DeepMind与英国政府的合作旨在通过AI加速科学发现的飞轮效应。

DeepMind宣布将于2026年在英国建立其首个自动化AI科学实验室。

闭环发现系统：实验室将运行一个由Gemini和GNoME（Graph Networks for Materials Exploration）驱动的闭环系统。AI负责基于量子化学原理设计新的晶体结构，预测其稳定性。

机器人合成：这些设计指令直接发送给全自动化的机器人平台，机器人负责配料、合成、烧结和测试。

数据反馈：实验结果实时反馈给AI，用于修正下一轮的预测。目标是将新材料（如室温超导体、高效电池电解质）的发现周期从数十年缩短至数月甚至数天。这一举措直接服务于英国的净零排放（NetZero）战略和能源安全。

除了硬件实验室，DeepMind还向英国科学家开放了一系列前沿AI模型：

国家安全与数字免疫系统

在安全领域，合作重点从「进攻性能力」转向了「防御性韧性」。

DeepMind与英国AI安全研究所（UKAI Security Institute）合作，部署了基于DeepResearch技术的网络防御工具。

BigSleep(原Project Naptime)：这是一个利用LLM在大规模代码库中寻找潜伏漏洞的智能体。它曾成功在SQLite等核心开源基础设施中发现了人类专家未能察觉的内存安全漏洞。

Code Mender：与BigSleep配合，不仅发现漏洞，还能自动生成修复代码补丁。这一套「发现-修复」的自动化闭环，旨在为英国的国家关键信息基础设施（CII）构建一套实时的「数字免疫系统」，抵御日益复杂的网络攻击。

以上就是谷歌这次针对GPT 5.2的更新内容。

个人认为谷歌目前还是最强的。

虽然昨夜GPT 5.2闪击Gemini 3成功，但是在多模态能力依然还是稍微落后的，或者在年底会有一个对标Nano Banana Pro的产品出现。

而且从最新的深度研究智能体来看，以及DeepMind在英国的深度战略布局，谷歌更加领先一步。

这种领先性向我们展示了AI技术发展的一个清晰图景：

通用人工智能（AGI）的雏形正在从对话框中走出，演变为能够感知、规划并改变物理与数字世界的智能体。

参考资料：

https://blog.google/technology/developers/deep-research-agent-gemini-api/

https://x.com/GoogleDeepMind/status/1999165701811015990

https://deepmind.google/blog/strengthening-our-partnership-with-the-uk-government-to-support-prosperity-and-security-in-the-ai-era/

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

来源:https://www.163.com/dy/article/KGIPRPMT0511ABV6.html

上一篇：俄罗斯车市销量前十，中国汽车已占据一半席位

下一篇：豆包版AI手机：是深度变革还是炒作噱头？

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

洛克王国绿色命运之钥获取攻略与详细步骤

洛克王国VIP扭蛋机具体位置与获取方法

光遇2026年520发布会爆料内容全解析

洛克王国S2赛季异色精灵盒子查看与使用指南

洛克王国城堡守护者具体位置与寻找攻略

星辰变归来神兽获取攻略新手快速入手指南

洛克王国宠物医院地址查询与位置导航指南

星辰变归来时装系统详解新手入门穿搭攻略

阴阳师2026年520兑换码领取方法与最新福利一览

星辰变归来境界系统详解与修炼攻略

漫蛙漫画防走失网页链接

日本宝可梦卡牌遭恶意破坏抵制黄牛行为引关注

三国志将星闪耀零氪能玩吗微氪玩家体验与氪金程度解析

少女前线2追放维尔德强度评测技能解析与培养攻略

客官里面请手游氪金指南与零氪金新手攻略

东离剑游纪手游抽卡机制与角色获取攻略详解

客官里面请手游深山探险全流程攻略与资源获取详解

镭明闪击手游哨所掩体高效布局与实战部署攻略

宝可梦冠军手游Mega进化种族值与能力数值全解析

地下城之光手游装备搭配与职业流派加点全攻略

漫蛙漫画防走失网页链接

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

谷歌研究团队详解DeepMind新一代AI系统：如何反击GPT-5

医疗病历数据录入如何实现自动化与智能化

ISSUT技术如何破解企业数字化转型的五大核心难题

特朗普紧急叫停AI监管令担忧拖慢美国技术竞争

具身智能数据供给革命与技能结构化实践解析

AI医疗场景落地：从技术到临床的价值闭环实践

谷歌研究团队详解DeepMind新一代AI系统：如何反击GPT-5

医疗病历数据录入如何实现自动化与智能化

ISSUT技术如何破解企业数字化转型的五大核心难题

特朗普紧急叫停AI监管令 担忧拖慢美国技术竞争

具身智能数据供给革命与技能结构化实践解析

AI医疗场景落地：从技术到临床的价值闭环实践

特朗普紧急叫停AI监管令担忧拖慢美国技术竞争