当前位置: 首页
AI
OpenAI发布AI科研基准:破解算法竞技与一流科学的本质差异

OpenAI发布AI科研基准:破解算法竞技与一流科学的本质差异

热心网友 时间:2025-12-17
转载


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新智元报道

编辑:艾伦

【新智元导读】OpenAI最新发布的FrontierScience基准,试图用真实的博士级难题,从物理、化学、生物三个维度上考验AI。真相是残酷的:在没有唯一标准答案的科研实战中,AI作为「顶级做题家」,距离真正的科学家,还差得远。

OpenAI在2025年12月16日发布了一套新基准FrontierScience,用来衡量AI在物理、化学、生物三门学科里,能否做到接近专家水准的科学推理,而不只是背知识点。



OpenAI在文中把科学工作描述成一套更接近「持续试错」的流程。

提出假设,设计验证,推翻再重来,还要把不同领域的线索拼成同一张图。

模型越强,问题就越尖锐,AI能不能把这种深推理用到真正的科研推进上。

OpenAI提到,过去一年他们的系统在国际数学奥林匹克和国际信息学奥林匹克上达到了金牌级表现,同时更重要的变化发生在实验室和办公室里。

研究者开始拿这些模型做跨学科文献检索,跨语言读论文,也拿它们去推复杂证明。

有些原本要耗掉几天甚至几周的工作,被压到几小时就能跑完一轮。

为什么需要FrontierScience?OpenAI给了一个对比。

2024年11月,GPQA这个由博士专家撰写、强调「谷歌搜不到」的科学题库发布时,GPT-4只拿到39%,低于专家基线74%。

两年后,GPT-5.2在同一基准上拿到92%。

当旧题库逐渐被刷穿,新的尺子就必须更长,否则你看不出模型还能往哪里发展。

FrontierScience的设计更像是给模型丢进两种不同的「科学难关」。

一类偏竞赛风格,考你在约束条件下把推理做到干净利落。


物理竞赛题示例

另一类更贴近研究现场,要求你在开放问题里把思路走通,哪怕没有标准答案那么工整。


物理科研问题示例

这套评测总量超过700道文本型题目,其中160道属于「黄金组」(Gold Set)题目。

竞赛赛道有100道题,强调短答案形式,便于核验对错。

研究赛道有60个原创研究子任务,由博士阶段或更资深的研究者设计,用10分制评分,拿到至少7分才算通过。


题目质量是有充足保障的:

竞赛赛道和42位前国际奖牌得主或国家队教练合作,总计109枚奥赛奖牌;

研究赛道由45位合格科学家与领域专家参与,覆盖从量子电动力学到合成有机化学,再到进化生物学等细分方向。

OpenAI还承认了一个不那么「中立」的细节。

两套题在制作流程里会刻意淘汰OpenAI自家内部模型已经能答对的题,因此这套评测对OpenAI自家模型可能更苛刻一些。

与此同时,他们开源了两套赛道的「黄金组」题目,其余题目保留,用来追踪数据污染。

OpenAI说,短答案适合机器判定,但研究型任务需要更细颗粒度的量表,于是他们用GPT-5充当模型判卷员,对照短答案逐项打分。

理想状态是请专家逐题批改,现实是规模不允许,于是规则被设计成尽量客观且可被模型检查,并配了验证流程来校准难度与正确性。

成绩单上,OpenAI给出了一轮初测对比。

他们评测了GPT-5.2、Claude Opus 4.5、Gemini 3 Pro、GPT-4o、OpenAI o4-mini、OpenAI o3等模型。OpenAI表示,GPT-5.2在竞赛题上得分77%,在研究题上得分25%,目前领先;Gemini 3 Pro在竞赛题上拿到76%,紧跟其后。


更值得注意的是失败原因。

OpenAI从答题记录里总结,前沿模型仍会犯推理、逻辑和计算错误,会卡在冷门概念上,也会出现事实性偏差。

另一个很朴素的观察也被写进正文:模型想得更久,准确率往往更高。


OpenAI对FrontierScience的边界也直言不讳。

它把科研切成可控的题目,这让评测更标准化,但也意味着它更像一张高清截图,而不是科研的全景纪录片。

尤其是它不评估模型能否提出真正新颖的假设,也不覆盖它与多模态数据和现实实验系统打交道的能力。

接下来,OpenAI计划迭代题库、扩展领域,并配套更多真实世界评估,看这些系统究竟让科学家多做成了什么。

奥赛金牌≠一流科学家,AI距离成为真正能独当一面的一流科学家,还有很长的路要走完。

参考资料:

https://openai.com/index/frontierscience/

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

来源:https://www.163.com/dy/article/KH02L1S50511ABV6.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Maya AI

Maya AI

Maya AI是什么 如果说数据是新时代的石油,那么提炼它、让它真正驱动业务的,正是像Maya AI这样的工具。简单来说,Maya AI是一个由Shivam Ramphal等人联合创立的生成式AI数据机器人。它的核心使命很明确:把企业内部和外部的各类数据,从杂乱无章的原料,转化为清晰、可直接行动的商

时间:2026-04-26 08:51
LunarCrush

LunarCrush

LunarCrush是什么 简单来说,LunarCrush是一个让你能“听到”市场心跳的工具。它由LunarCrush公司打造,核心是一套AI驱动的数据分析系统,能够实时追踪超过20,000种金融资产的动态。它的独特之处在于,不只盯着价格K线,而是将社交媒体上的海量讨论、情绪与传统的市场数据深度融合

时间:2026-04-26 08:51
REI Litics

REI Litics

REI Litics是什么 在住宅房地产投资这个领域,信息就是一切,但信息过载同样是个大的麻烦。有没有一个工具,能帮你把全美数百个市场的关键数据理清楚,直接找到那个“最优解”?REI Litics就是为此而生。它由一群深谙投资者痛点的专业人士打造,本质上是一个研究工具,目标很明确:简化整个投资流程,

时间:2026-04-26 08:51
Shram

Shram

Shram是什么 如果有一种工具,能把繁琐的项目管理变得像打游戏一样让人上瘾,你会不会想试试?Shram,正是这样一款由Soshals公司开发的“游戏化工作管理工具”。它的目标很明确:帮助那些渴望提升团队透明度、赋予成员更多自主权,同时想让工作变得更有趣的组织。它的核心远不止于分派任务和追踪进度,更

时间:2026-04-26 08:51
Sandee

Sandee

Sandee是什么 说起规划海滩旅行,你最先想到的挑战是什么?是信息分散难以比较,还是担心“照骗”与实际不符?现在,一个名为Sandee的AI工具正在试图解决这些问题。它由SandeePlastics公司开发,本质上是一个专注于全球海滩信息的智能平台。其使命很明确:通过汇聚和整理最详尽的海滩数据,帮

时间:2026-04-26 08:50
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程