清华姚顺宇跳槽谷歌首秀:Gemini 3 DeepThink重大升级解析
2 月 12 日,谷歌上线 Gemini 3 Deep Think 的重大升级。这次升级的背后,也站着一位在 2025 年 9 月因为不满前东家 Anthropic 言论而辞职加入谷歌的清华物理系传奇校友姚顺宇。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

图 | 姚顺宇(来源:资料图)
作为一款推理模型,Gemini 3 Deep Think 在多项基准测试中刷新纪录:ARC-AGI-2 测试达 84.6%,Codeforces 编程平台获 3,455 分(世界排名第 8,仅 7 人能超越),并在数学、物理、化学奥赛中达金牌水平。然而,其每项任务成本仅为 13.62 美元,比 OpenAI o3 降低大约 280-420 倍。目前,新模型已被用于数学论文审阅、晶体生长工艺优化等科研场景,现已通过 Gemini 应用和 API 向订阅用户及部分研究者开放。

(来源:Google)
如果你对 2025 年 Gemini Deep Think 在 IMO 摘金的印象还停留在这是一个很会解题的学霸,那么这次升级可能会让你重新认识它。学霸和科学家的区别在于:前者擅长回答带有标准答案的问题,但是后者敢于跳进没有边界、数据残缺、甚至没有人知道终点在哪里的浑水。这正是此次 Deep Think 升级最本质的跨越。

(来源:Google)
谷歌在最新博客中反复强调的关键词是:“messy or incomplete。”现实世界的科研难题,从来不像奥数题那样会给你完美的已知条件。一个凝聚态物理的实验数据可能包含无法复现的噪声,一个化学生物学交叉课题的文献综述可能需要横跨几十年的几十个互斥的假说。新版 Deep Think 的核心突破,则是学会了在这种混沌之中保持推理的优雅。
有这样一组数据也许足以让同行沉默。在被称为人类最后考试(Humanity‘s Last Exam)的极限基准测试中,Deep Think 在不借助任何外部工具的情况下拿下 48.4% 的准确率。这个数字的厉害之处在于,它不仅甩开了 GPT-5.2(34.5%)和 Claude Opus 4.6(40.0%),也意味着 AI 首次在横跨数百个尖端学科的长尾难题中,逼近了人类博士候选人的中位线。
而在 ARC-AGI-2 这个被公认为是抽象推理试金石的测试中,84.6% 的得分是一个代际断层的表现。ARC Prize Foundation 的独立验证,更是让这个数字褪去了营销成分。
可能会让一部分人感到脊背发凉的是 Codeforces 那行小小的数字:3455Elo。关注竞技编程的读者知道,2,700 分已经是国际特级大师的表现,3,000 分是人类穷尽职业生涯也难以触摸的神域。更可怕的是,3,455 分这个分数是不借助任何工具取得的,既不是纯文本生成,也没有代码执行辅助。这意味着 Deep Think 对于算法本质的理解,已经内化成为某种超越代码本身的直觉。

(来源:Google)
然而,如果把这次升级仅仅解读为跑分更强,就完全错过了谷歌布下的那盘大棋。这个棋局藏在两个看似不抬起眼的场景描述里。
第一个场景是把手绘草图直接生成 3D 打印文件。从模糊的线条到精密的物理模型,中间横亘着几何建模、结构力学分析、打印路径优化等多道专业壁垒。Deep Think 做到了在理解绘图这意图的基础之上,主动补全了那些草图上没有画出来的受力逻辑。
第二个场景是罗格斯大学的数学家 Lisa Carbone 用它审稿,Deep Think 发现了一处人类审稿人集体遗漏的微秒逻辑漏洞,这意味着 AI 能在前沿研究的模糊地带捕捉到推理链的断裂,也意味着 AI 告别了只是复述教科书式的错误的阶段。
这两件事的共同点在于,AI 不再只是等待指令,开始主动介入创造与验证的闭环。这也正是姚顺宇在那篇广为流传的离职博文中反复提到的命题。这位当年清华物理系的特奖得主,大二开始选修研究生课程,先后成为美国斯坦福大学博士和美国加州大学伯克利分校博士后,却在传统理论物理最光鲜的学术坦途选择了转弯。他曾在博文里写道,一个没有实验指引的领域,很难客观评判理论工作的价值。他看到的困局,其实也是 AI 行业自身的影像。
过去两年,有时人们沉迷于在封闭基准上比拼小数点后的精度,却越来越远离使用智能解决真实问题的初心。姚顺宇把当下的 AI 研究比作 17 世纪的热力学。那时,人们甚至不知道热是什么,燃素说依然是主流,但是这并不妨碍波义尔通过系统实验总结出定律,并最终催生了蒸汽机。Deep Think 此次升级的野望,或许正是要成为AI世界的波义尔。
因此,与其说 Gemini 3 Deep Think 是一个模型,不如说它是一个正在快速进化的科研操作系统。3455 Elo 是它的左脑,84.6% 的抽象推理是它的右脑,而从草图到实物的 3D 打印能力是它伸向物理世界的一只手臂。几百年前,牛顿用自己在苹果树下的思考解释宇宙,AI 时代的今天,无论如何都得换种方法了。
参考资料:
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/
https://the-decoder.com/google-deepmind-upgrades-gemini-3-deep-think-for-complex-science-and-engineering-tasks/
运营/排版:何晨龙
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
华硕“VG27UQEL5A”27 英寸显示器首销:4K 80Hz/ 1080P 310Hz 双模,1599 元
华硕“VG27UQEL5A”27英寸显示器首销:4K 80Hz 1080P 310Hz双模,1599元 3月15日最新消息,华硕旗下型号为“VG27UQEL5A”的27英寸显示器已在京东平台正式开启首销。这款新品最大的亮点在于支持4K 80Hz与1080P 310Hz双模式切换,首发定价锁定在159
盛色推出“G75 护眼版”27 英寸显示器:2K 340Hz 超频,1209 元
盛色G75护眼版显示器上架:2K 340Hz电竞新选择 电竞显示器市场又迎来一位实力选手。盛色最新推出的G75护眼版27英寸显示器已在京东正式开售,主打2K分辨率和340Hz超高刷新率,定价1209元。值得一提的是,部分地区享受国家补贴后,实际到手价可低至1148 55元,性价比相当突出。 性能参数
华硕Intel 800系主板Intel Ultra 200S Plus的好搭子
Intel酷睿Ultra 200S Plus系列处理器——270K Plus和250K Plus现已正式发布,拥有更多的核心,可显著增强多线程性能,并加入全新的英特尔二进制优化技术。与现有的第二代酷睿 Ultra系列台式机处理器相比,几何平均游戏性能提升高达15%。新U配好板,华硕Intel 800
重返奎尔萨拉斯!微星《魔兽世界:至暗之夜》限定版显卡来袭
MSI与暴雪联手,推出《魔兽世界:至暗之夜》限定版显卡,信仰与性能并存 嘿,各位玩家和硬件爱好者们,有个大消息来了!咱们熟悉的硬件大厂微星MSI,这次和暴雪娱乐玩了一票大的。为了庆祝《魔兽世界》最新资料片“至暗之夜”上线,他们俩竟然联手,捣鼓出了一款限定版显卡——GeForce RTX 5070 1
荣耀 MagicBook 14/16 2026 笔记本开启新品预约:可选酷睿 Ultra5-335H/Ultra X7-358H 处理器
荣耀 MagicBook 14 16 2026 款全方位评测:Ultra X7 与 Ultra5 双芯配置,性能与续航如何兼得? 荣耀新一代轻薄本产品线布局迅速,备受瞩目的 MagicBook 14 与 MagicBook 16 2026 款已正式开启新品预约。尽管官方售价尚未公布,但从京东等电商平
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

