当前位置: 首页
科技数码
清华姚顺宇跳槽谷歌首秀:Gemini 3 DeepThink重大升级解析

清华姚顺宇跳槽谷歌首秀:Gemini 3 DeepThink重大升级解析

热心网友 时间:2026-02-13
转载

2 月 12 日,谷歌上线 Gemini 3 Deep Think 的重大升级。这次升级的背后,也站着一位在 2025 年 9 月因为不满前东家 Anthropic 言论而辞职加入谷歌的清华物理系传奇校友姚顺宇。


图 | 姚顺宇(来源:资料图)

作为一款推理模型,Gemini 3 Deep Think 在多项基准测试中刷新纪录:ARC-AGI-2 测试达 84.6%,Codeforces 编程平台获 3,455 分(世界排名第 8,仅 7 人能超越),并在数学、物理、化学奥赛中达金牌水平。然而,其每项任务成本仅为 13.62 美元,比 OpenAI o3 降低大约 280-420 倍。目前,新模型已被用于数学论文审阅、晶体生长工艺优化等科研场景,现已通过 Gemini 应用和 API 向订阅用户及部分研究者开放。


(来源:Google)

如果你对 2025 年 Gemini Deep Think 在 IMO 摘金的印象还停留在这是一个很会解题的学霸,那么这次升级可能会让你重新认识它。学霸和科学家的区别在于:前者擅长回答带有标准答案的问题,但是后者敢于跳进没有边界、数据残缺、甚至没有人知道终点在哪里的浑水。这正是此次 Deep Think 升级最本质的跨越。


(来源:Google)

谷歌在最新博客中反复强调的关键词是:“messy or incomplete。”现实世界的科研难题,从来不像奥数题那样会给你完美的已知条件。一个凝聚态物理的实验数据可能包含无法复现的噪声,一个化学生物学交叉课题的文献综述可能需要横跨几十年的几十个互斥的假说。新版 Deep Think 的核心突破,则是学会了在这种混沌之中保持推理的优雅。

有这样一组数据也许足以让同行沉默。在被称为人类最后考试(Humanity‘s Last Exam)的极限基准测试中,Deep Think 在不借助任何外部工具的情况下拿下 48.4% 的准确率。这个数字的厉害之处在于,它不仅甩开了 GPT-5.2(34.5%)和 Claude Opus 4.6(40.0%),也意味着 AI 首次在横跨数百个尖端学科的长尾难题中,逼近了人类博士候选人的中位线。

而在 ARC-AGI-2 这个被公认为是抽象推理试金石的测试中,84.6% 的得分是一个代际断层的表现。ARC Prize Foundation 的独立验证,更是让这个数字褪去了营销成分。

可能会让一部分人感到脊背发凉的是 Codeforces 那行小小的数字:3455Elo。关注竞技编程的读者知道,2,700 分已经是国际特级大师的表现,3,000 分是人类穷尽职业生涯也难以触摸的神域。更可怕的是,3,455 分这个分数是不借助任何工具取得的,既不是纯文本生成,也没有代码执行辅助。这意味着 Deep Think 对于算法本质的理解,已经内化成为某种超越代码本身的直觉。


(来源:Google)

然而,如果把这次升级仅仅解读为跑分更强,就完全错过了谷歌布下的那盘大棋。这个棋局藏在两个看似不抬起眼的场景描述里。

第一个场景是把手绘草图直接生成 3D 打印文件。从模糊的线条到精密的物理模型,中间横亘着几何建模、结构力学分析、打印路径优化等多道专业壁垒。Deep Think 做到了在理解绘图这意图的基础之上,主动补全了那些草图上没有画出来的受力逻辑。

第二个场景是罗格斯大学的数学家 Lisa Carbone 用它审稿,Deep Think 发现了一处人类审稿人集体遗漏的微秒逻辑漏洞,这意味着 AI 能在前沿研究的模糊地带捕捉到推理链的断裂,也意味着 AI 告别了只是复述教科书式的错误的阶段。

这两件事的共同点在于,AI 不再只是等待指令,开始主动介入创造与验证的闭环。这也正是姚顺宇在那篇广为流传的离职博文中反复提到的命题。这位当年清华物理系的特奖得主,大二开始选修研究生课程,先后成为美国斯坦福大学博士和美国加州大学伯克利分校博士后,却在传统理论物理最光鲜的学术坦途选择了转弯。他曾在博文里写道,一个没有实验指引的领域,很难客观评判理论工作的价值。他看到的困局,其实也是 AI 行业自身的影像。

过去两年,有时人们沉迷于在封闭基准上比拼小数点后的精度,却越来越远离使用智能解决真实问题的初心。姚顺宇把当下的 AI 研究比作 17 世纪的热力学。那时,人们甚至不知道热是什么,燃素说依然是主流,但是这并不妨碍波义尔通过系统实验总结出定律,并最终催生了蒸汽机。Deep Think 此次升级的野望,或许正是要成为AI世界的波义尔。

因此,与其说 Gemini 3 Deep Think 是一个模型,不如说它是一个正在快速进化的科研操作系统。3455 Elo 是它的左脑,84.6% 的抽象推理是它的右脑,而从草图到实物的 3D 打印能力是它伸向物理世界的一只手臂。几百年前,牛顿用自己在苹果树下的思考解释宇宙,AI 时代的今天,无论如何都得换种方法了。

参考资料:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

https://the-decoder.com/google-deepmind-upgrades-gemini-3-deep-think-for-complex-science-and-engineering-tasks/

运营/排版:何晨龙

来源:https://www.163.com/dy/article/KLL2IRU205119734.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
4月规上工业原油产量1794万吨 同比增长1.2%

4月规上工业原油产量1794万吨 同比增长1.2%

国家统计局最新发布的能源数据显示,四月份我国原油生产与加工领域呈现出截然不同的发展态势。总体来看,上游生产保持稳健增长,而下游加工环节则面临一定压力。 从生产端来看,四月份规模以上工业原油产量达到1794万吨,同比增长1 2%,增速较三月份提升1 0个百分点。日均产量约为59 8万吨,生产节奏稳步加

时间:2026-05-18 18:08
iPhone 18 Pro手机壳曝光 相机模组尺寸或进一步增大

iPhone 18 Pro手机壳曝光 相机模组尺寸或进一步增大

知名爆料人分享了iPhone18Pro系列保护壳图片。设计延续前代风格,但相机模组尺寸可能进一步扩大,机身或略增厚,导致新保护壳与旧款不兼容。屏幕尺寸预计保持不变。综合信息显示,该系列更像是前代的强化升级版,重点在于内部性能与影像系统的提升。

时间:2026-05-18 18:08
百望股份与中关村两院战略合作共建产学研创投生态

百望股份与中关村两院战略合作共建产学研创投生态

百望股份与中关村学院、中关村人工智能研究院达成战略合作,共建产学研创投生态。依托百望的真实企业交易数据与两院的科研人才优势,在合规前提下挖掘数据要素价值。双方聚焦财税金融领域,利用AI技术研发智能应用,并通过共建数据沙箱、人才通道与共创机制,推动数据智能从学术创。

时间:2026-05-18 18:08
小米SU7 GT发布会5月21日举行 多款新品同步亮相

小米SU7 GT发布会5月21日举行 多款新品同步亮相

小米创始人雷军宣布,小米YU7GT将于5月21日晚7点发布。新车定位纯血GT,拥有修长车头、跑车宽体设计,最大马力1003匹,续航705公里。同场还将推出小米17Max手机、耳夹式耳机等多款生态新品。雷军解释,YU7GT侧重长途旅行与日常使用平衡,其纽北测试旨在验证极端条件下的整车性能。

时间:2026-05-18 18:08
英伟达洽谈领投印度AI初创公司Simplismart

英伟达洽谈领投印度AI初创公司Simplismart

英伟达正洽谈领投印度AI初创公司Simplismart,计划投资约2000万美元,投后估值预计达1亿美元。该公司专注于生成式AI和MLOps,若交易达成,其估值将在数月内从2500万美元跃升近四倍,增长迅猛。英伟达今年在AI领域投资已超400亿美元,持续扩张其生态布局。

时间:2026-05-18 18:08
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程