当前位置: 首页
科技数码
谷歌模型升级:清华姚顺宇参与,从业者称其如外星智能

谷歌模型升级:清华姚顺宇参与,从业者称其如外星智能

热心网友 时间:2026-02-13
转载

北京时间2月13日,谷歌正式推出了Gemini 3 DeepThink的重大升级版本,该模型专门设计用于处理复杂任务的推理模式,旨在应对科学和工程领域中存在的诸多挑战。

值得一提的是,去年9月加入谷歌DeepMind团队的清华物理系知名学者姚顺宇(Shunyu Yao)也深度参与了此次DeepThink新模型的研发工作,并在当天通过社交媒体发文,邀请广大用户体验这一全新模型。


谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)在发帖中表示:"我们与科学家和研究团队紧密合作,对DeepThink进行了全面改进,以应对现实世界中各种棘手的挑战。"这些挑战往往缺乏明确的指导原则或唯一正确答案,数据也常常呈现杂乱无章或不完整的状态。DeepThink将科学知识与日常工程实践相结合,有效推动实际应用落地。

从测试数据来看,这一模型在多项基准测试中创下了新纪录,超越了头部竞争对手旗下的Claude Opus 4.6和GPT-5.2,也超越了谷歌自家的Gemini 3 Pro Preview版本。

具体而言,在"人类终极考试"测试中,DeepThink取得了48.4%的成绩(在不使用工具的情况下),刷新了该测试的最佳纪录。而Claude Opus 4.6的成绩为40%,OpenAI的GPT-5.2成绩为34.5%。

在ARC-AGI-2测试中,DeepThink获得了前所未有的84.6%成绩,此前最强模型的得分在60%-70%之间,Claude Opus 4.6的成绩是68.8%。在竞技编程基准测试平台Codeforces中,DeepThink的Elo评分达到3455分,这一分数相当于在全球编程能力排名中位列前8。

此外,Gemini 3 DeepThink在化学和物理等科学领域表现卓越。谷歌特别提到,在2025年国际物理和化学奥林匹克竞赛的笔试环节,该模型取得了金牌级别的优异成绩。

去年,谷歌已证实DeepThink模式的定制版本能够攻克诸多高难度推理难题,在国际数学和编程锦标赛事中达到金牌水准。而此次升级则让DeepThink模式进一步支持研发人员开展研究级(research-level)的数学探索工作。

在官方博客中,谷歌展示了一些早期测试用户使用最新版DeepThink取得的成果。

罗格斯大学的数学家Lisa Carbone致力于研究高能物理学界所需的数学结构,以弥合爱因斯坦引力理论和量子力学之间的鸿沟。由于该领域缺乏大量的训练数据,她利用DeepThink技术审阅了一篇高度专业的数学论文。DeepThink成功地识别出了一个细微的逻辑缺陷,而这个缺陷此前在人工同行评审中均未被发现。

DeepThink还可以用来优化复杂晶体生长的制备方法,用于探索新的半导体材料。在杜克大学的案例中,其设计的方案培育出了尺寸超过100微米的薄膜,技术指标超过此前所有方法。

除了其最先进的性能外,DeepThink还旨在推动实际应用,使研究人员能够解释复杂的数据,使工程师能够通过代码对物理系统进行建模。例如,DeepThink对图纸进行分析,对复杂的形状进行建模,并生成文件,通过3D打印创建物理对象。

在谷歌官方评论区中,不少从业者震惊于ARC-AGI-2测试得分能达到84.6%。作为参考,大多数人在这类抽象推理题上都很难达到80%的正确率。

"如果这个模型在识别新模式(而不仅仅是记忆)方面真的达到了这样超人的水平,我们就应该停止称它为聊天机器人,而应该称它为外星智能。"一位AI从业者感慨道,Codeforces上的Elo等级是3455简直就是"传奇大师"级别了。

"真正让人惊讶的是,DeepThink竟然发现了一篇经过同行评审的数学论文中,人类审核人都忽略的逻辑缺陷。那不是工具,那是合作者。我们已经跨越了人工智能辅助研究人员和人工智能验证研究人员工作的界限。"一位谷歌前工程师评论道。

谷歌表示,DeepThink现已在Gemini应用中上线,目前Google AI Ultra订阅用户可以使用。此外,谷歌首次通过Gemini API向部分研究人员、工程师和企业开放DeepThink的使用权限。

来源:https://www.163.com/dy/article/KLLLKQ3R0519DDQ2.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
嫦娥七号任务下半年择机发射 各项工作按计划推进

嫦娥七号任务下半年择机发射 各项工作按计划推进

我国正体系化整合月球探测任务,将载人登月与无人探月统一纳入“月球探测工程”。嫦娥七号计划下半年发射,将对月球南极开展“绕、落、巡、飞跃”立体探测并推动国际合作。同时,载人航天工程将有序推进长征十号火箭、梦舟飞船及揽月着陆器等关键任务,为载人登月奠定基础。

时间:2026-05-23 12:44
神舟二十三号发射任务准备就绪即将升空

神舟二十三号发射任务准备就绪即将升空

神舟二十三号已具备发射条件,将采用自主快速交会对接模式,与天和核心舱径向端口对接。届时中国空间站将形成“三船三舱”组合体,为后续复杂在轨任务奠定基础,标志着我国空间站建设进入新阶段。

时间:2026-05-23 12:43
AI短剧日产千部背后:行业两极分化现状解析

AI短剧日产千部背后:行业两极分化现状解析

2026年短剧行业因AI技术发生系统性重构。AI生成内容占比超95%,制作成本骤降超90%,导致产能暴增与内容同质化。行业呈现两极分化:传统岗位价值萎缩,而创意、分发端及AI人才价值凸显。出海市场迅猛增长,商业模式全球复制,但面临合规与文化适配挑战。当生产不再稀缺,创意与叙事吸引力成为核心价值。

时间:2026-05-23 12:43
嫦娥七号任务计划下半年择机发射 各项工作有序推进

嫦娥七号任务计划下半年择机发射 各项工作有序推进

嫦娥七号任务各项工作正按计划有序推进,计划于今年下半年择机发射。目前探测器系统、运载火箭系统、发射场系统等各项准备工作正稳步开展,任务团队正全力确保发射任务圆满成功。

时间:2026-05-23 12:34
巴基斯坦航天员将执行短期太空任务 正接受专业训练确保能力

巴基斯坦航天员将执行短期太空任务 正接受专业训练确保能力

巴基斯坦航天员正接受系统训练,将作为载荷专家执行短期太空飞行任务,以确保具备完成任务所需的专业能力。

时间:2026-05-23 12:34
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程