数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

OpenAI发布AI科研基准：破解算法竞技与一流科学的本质差异

AI热点日报时间：2025-12-17

热点解读

新智元报道编辑：艾伦【新智元导读】OpenAI最新发布的FrontierScience基准，试图用真实的博士级难题，从物理、化学、生物三个维度上考验AI。真相是残酷的：在没有唯一标准答案的科研实战中

新智元报道

编辑：艾伦

【新智元导读】OpenAI最新发布的FrontierScience基准，试图用真实的博士级难题，从物理、化学、生物三个维度上考验AI。真相是残酷的：在没有唯一标准答案的科研实战中，AI作为「顶级做题家」，距离真正的科学家，还差得远。

OpenAI在2025年12月16日发布了一套新基准FrontierScience，用来衡量AI在物理、化学、生物三门学科里，能否做到接近专家水准的科学推理，而不只是背知识点。

OpenAI在文中把科学工作描述成一套更接近「持续试错」的流程。

提出假设，设计验证，推翻再重来，还要把不同领域的线索拼成同一张图。

模型越强，问题就越尖锐，AI能不能把这种深推理用到真正的科研推进上。

OpenAI提到，过去一年他们的系统在国际数学奥林匹克和国际信息学奥林匹克上达到了金牌级表现，同时更重要的变化发生在实验室和办公室里。

研究者开始拿这些模型做跨学科文献检索，跨语言读论文，也拿它们去推复杂证明。

有些原本要耗掉几天甚至几周的工作，被压到几小时就能跑完一轮。

为什么需要FrontierScience？OpenAI给了一个对比。

2024年11月，GPQA这个由博士专家撰写、强调「谷歌搜不到」的科学题库发布时，GPT-4只拿到39%，低于专家基线74%。

两年后，GPT-5.2在同一基准上拿到92%。

当旧题库逐渐被刷穿，新的尺子就必须更长，否则你看不出模型还能往哪里发展。

FrontierScience的设计更像是给模型丢进两种不同的「科学难关」。

一类偏竞赛风格，考你在约束条件下把推理做到干净利落。

物理竞赛题示例

另一类更贴近研究现场，要求你在开放问题里把思路走通，哪怕没有标准答案那么工整。

物理科研问题示例

这套评测总量超过700道文本型题目，其中160道属于「黄金组」（Gold Set）题目。

竞赛赛道有100道题，强调短答案形式，便于核验对错。

研究赛道有60个原创研究子任务，由博士阶段或更资深的研究者设计，用10分制评分，拿到至少7分才算通过。

题目质量是有充足保障的：

竞赛赛道和42位前国际奖牌得主或国家队教练合作，总计109枚奥赛奖牌；

研究赛道由45位合格科学家与领域专家参与，覆盖从量子电动力学到合成有机化学，再到进化生物学等细分方向。

OpenAI还承认了一个不那么「中立」的细节。

两套题在制作流程里会刻意淘汰OpenAI自家内部模型已经能答对的题，因此这套评测对OpenAI自家模型可能更苛刻一些。

与此同时，他们开源了两套赛道的「黄金组」题目，其余题目保留，用来追踪数据污染。

OpenAI说，短答案适合机器判定，但研究型任务需要更细颗粒度的量表，于是他们用GPT-5充当模型判卷员，对照短答案逐项打分。

理想状态是请专家逐题批改，现实是规模不允许，于是规则被设计成尽量客观且可被模型检查，并配了验证流程来校准难度与正确性。

成绩单上，OpenAI给出了一轮初测对比。

他们评测了GPT-5.2、Claude Opus 4.5、Gemini 3 Pro、GPT-4o、OpenAI o4-mini、OpenAI o3等模型。OpenAI表示，GPT-5.2在竞赛题上得分77%，在研究题上得分25%，目前领先；Gemini 3 Pro在竞赛题上拿到76%，紧跟其后。

更值得注意的是失败原因。

OpenAI从答题记录里总结，前沿模型仍会犯推理、逻辑和计算错误，会卡在冷门概念上，也会出现事实性偏差。

另一个很朴素的观察也被写进正文：模型想得更久，准确率往往更高。

OpenAI对FrontierScience的边界也直言不讳。

它把科研切成可控的题目，这让评测更标准化，但也意味着它更像一张高清截图，而不是科研的全景纪录片。

尤其是它不评估模型能否提出真正新颖的假设，也不覆盖它与多模态数据和现实实验系统打交道的能力。

接下来，OpenAI计划迭代题库、扩展领域，并配套更多真实世界评估，看这些系统究竟让科学家多做成了什么。

奥赛金牌≠一流科学家，AI距离成为真正能独当一面的一流科学家，还有很长的路要走完。

参考资料：

https://openai.com/index/frontierscience/

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标，锁定新智元极速推送！

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：OpenAI发布AI科研基准：破解算法竞技与一流科学的本质差异要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.163.com/dy/article/KH02L1S50511ABV6.html

奥赛科学科研基准 openai

上一篇：OpenAI最新图像模型实测：生成效果与网友反馈全解析

下一篇：蚂蚁阿福登顶IOS应用季军：揭秘国民级AI+App的崛起之路

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周Coachify AI教练助个人实现健身健康目标 02 / 本周年WordPress安全插件推荐与使用指南 03 / 本周Impulse AI解锁AI强大力量轻松满足营销需求 04 / 本周WordPress网站精选搜索引擎优化插件推荐与选择指南 05 / 本周儿童绘画动画工具：让孩子的涂鸦活起来

01 / 本月Coachify AI教练助个人实现健身健康目标 02 / 本月年WordPress安全插件推荐与使用指南 03 / 本月Impulse AI解锁AI强大力量轻松满足营销需求 04 / 本月WordPress网站精选搜索引擎优化插件推荐与选择指南 05 / 本月儿童绘画动画工具：让孩子的涂鸦活起来

热点快看

07-13 21:22Coachify AI教练助个人实现健身健康目标 07-13 21:22年WordPress安全插件推荐与使用指南 07-13 21:21Impulse AI解锁AI强大力量轻松满足营销需求 07-13 21:21WordPress网站精选搜索引擎优化插件推荐与选择指南 07-13 21:21儿童绘画动画工具：让孩子的涂鸦活起来

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别