OpenAI警示AGI近在咫尺,GPT-5能力已超越人类天花板

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
新智元报道
编辑:元宇
【新智元导读】如同智能手机一样,大模型也进入了一个「能力过剩」时代,即大模型本身的能力与人类使用方式之间存在着巨大断层。
刚刚,GPT-5.2刷新了一项新纪录!

OpenAI联合创始人Greg Brockman发帖称使用GPT-5.2在ARC-AGI-2基准测试上,表现超过了人类基线水平。
在基准测试时技能爆表,但一到实际应用就「掉链子」,OpenAI前首席科学家Ilya Sutskever提到的这种大模型「性能悖论」我们并不陌生。
这也是AGI评估领域一个长期存在的难题——如何区分大模型「真正的推理能力」与「刷题型能力」。
而ARC-AGI-2的出现正好打破了这一难题。
ARC-AGI-2的全称为「Abstraction and Reasoning Corpus for Artificial General Intelligence-Version 2」,是ARC系列基准的最新升级版本。
该基准由François Chollet(Keras之父、前Google Brain研究员)及其团队在2025年推出,其设计初衷十分明确:
测试AI是否具备AGI所必需的抽象、归纳与迁移推理能力,而非记忆或统计模式匹配。
ARC系列与传统NLP或多模态benchmark最大的不同在于:它没有大规模训练集,每道题目都是从未见过的新任务,因此不存在通过「刷数据」获得高分的可能。
它要求AI像人类一样具备真正的推理和举一反三的能力。
Chollet曾多次公开表示,如果一个系统只能在见过的数据分布上表现良好,那它并不具备AGI所需的能力。
因此,ARC基准测试刚好直击大模型的「软肋」。
从「及格」到「优等生」
一次关键跨越

新纪录的刷新者,并非单一模型,而是一个名为Poetiq(GPT-5.2X-High)的系统。
Poetiq是一家专注于元系统(Meta-System)架构的AI公司。
其核心理念并不是训练一个更大的模型,而是通过软件层面的系统设计,自动构建「会调用模型的系统」。
Poetiq(GPT-5.2X-High)在ARC-AGI-2数据集上实现了75%准确率,每问题成本不到8美元,超越前SOTA 15个百分点。
在Poetiq(GPT-5.2X-High)系统出现之前,GPT-5.2(X-High)已经非常接近人类平均水平。
ARC-AGI-2榜单中,人类平均准确率约为60%,GPT-5.2X-High的成绩与之几乎持平,代表了当时AI在该基准上的最强推理能力。
但Poetiq的加入,使GPT-5.2(X-High)的得分从60%直接拉升到了75%,从勉强及格(人类平均水平)迈入了优等生的行列(显著超越人类平均水平)。
在同一榜单上,还能看到Gemini 3 Deep Think(Preview)的身影。
该模型主打「深度思考(Deep Think)」技术,在ARC-AGI-2上的成绩约为46%,明显落后于GPT-5.2系列,并且成本相对后者也略高。

Poetiq表示,整个过程没有对GPT-5.2进行任何训练或者特定优化。
这正是Poetiq元系统的初衷,旨在自动构建完整的系统,通过调用任何现有的前沿模型来解决特定任务。

从15%的提升数据来看,Poetiq对于基础模型性能的提升幅度还是非常明显的。
它的存在证明了不需要堆算力,通过优秀的软件架构也能大幅提升AI性能。
从这个角度上,它也验证了接下来OpenAI的一个判断——
当前大模型,正逐渐进入「能力过剩」阶段。
大模型「能力过剩」时代

就在同一天,OpenAI最新也在X平台发布了一项关于2026年的预测。
在这条推文中,OpenAI明确提到一个关键词:Capability Overhang(能力过剩)。
核心意思是:
当前模型「能够做到的事情」,与人们「实际使用AI的方式」(产生效果)之间,存在巨大的断层。
OpenAI认为,未来AGI的进展将不再仅取决于模型本身的突破,还将取决于:
人们是否知道如何有效使用AI
AI是否真正融入现实工作与生活
系统是否能将模型能力转化为实际价值
因此,在2026年,OpenAI将继续前沿研究,同时重点投入于应用层、系统层、人机协同,尤其强调医疗、商业和日常生活场景。
人机协同
AGI的另一半拼图
OpenAI这篇最新推文涉及一个人机协同的问题。
实现AGI,是需要模型和人协同发挥作用:AGI不只靠模型升级,更要「教人用AI」。
通过正确的使用AI,充分发挥出AI的潜能,这样才能让AI开始从「炫技」转向「普惠」,真正影响亿万人生活。
这一观点也得到了社区的强烈回应。
于是,乐观的网友称「直接把我整个人自动化吧」!

也有网友提到,真正的挑战在于如何将AI融入工作流程中:见过太多组织买了「AI」,却从未改变任何一个流程。

大模型真的「能力过剩」了吗?
那么,是不是真如OpenAI所说的,大模型的能力已经过剩了呢?
通过上面Poetiq所公布的Poetiq(GPT-5.2X-High)在ARC-AGI-2上的表现,75%的得分超过了人类平均水平(60%)15个百分点。
此前OpenAI最新在介绍GPT-5时强调其在解决复杂跨学科问题上达到了专家级基准,后被外界引申为「博士级智能」。
这说明GPT-5等大模型在某些专业任务中表现类似于人类博士的专业水平。
从模型本身来说,也许并未完全过剩,但从「未被充分释放的能力」角度来看,已经严重过剩。
其中,有模型设计者方的原因,比如他们没有紧跟用户的使用场景,「不再与用户并肩同行了」。

也可能由于前沿模型在推理和创新上缺乏根本性的突破。

还有模型本身迭代得太快,用户不得不在日常生活中不断弃用已经「成功上手」的模型。

Poetiq 的出现,以及OpenAI对「能力过剩」的判断,共同指向了未来AI领域的一个新方向:
下一阶段的AI竞争,不再只是模型参数之争,而是系统、流程与人机协同的竞争。
参考资料:
https://x.com/poetiq_ai/status/2003546910427361402
https://x.com/OpenAI/status/2003594025098785145
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Video-MME团队推出最严格AI视频理解评测基准
看视频时,我们的大脑几乎在同步处理多项任务:识别画面中的物体、理清动作的先后顺序、揣摩人物情绪、推断事件的前因后果。这个过程对我们来说轻松自然,但对人工智能而言,却是一座难以逾越的高峰。近期,由多个研究机构组成的Video-MME团队发布了一项关键研究,他们构建了一套名为Video-MME-v2的全
电子科技大学团队研发AI智能体实现游戏内举一反三学习
这项由电子科技大学牵头,联合韩国科学技术院、香港理工大学和庆熙大学共同完成的前沿研究,已于2026年4月正式发布于国际知名的ArXiv预印本平台,论文编号为arXiv:2604 05533v1。对于希望深入了解AI智能体迁移学习技术细节的读者,可以通过此编号查阅完整的学术论文。 熟悉《我的世界》(M
阿里巴巴团队攻克AI学术图表绘制难题实现论文配图自动生成
2025年3月31日,一项由阿里巴巴通义实验室联合上海交通大学、复旦大学、中国科学技术大学、东南大学及香港大学共同完成的重磅研究,在预印本平台arXiv上正式发布(论文编号:2603 28068v2)。该研究团队构建了一个名为AIBench的全新评估基准,其核心目标直指人工智能领域的一个前沿挑战:如
Illuin科技揭示AI搜索引擎偏见问题突破性发现
你是否曾在使用AI搜索工具时感到困惑:为什么那些内容冗长、信息分散的文章总是排在搜索结果前列,而那些结构清晰、信息密度高的优质内容却难以被找到?这并非偶然现象,而是揭示了当前AI搜索技术中一个亟待关注的核心问题。 法国Illuin Technology公司近期的一项突破性研究,系统性地揭示了先进AI
沙特KAUST团队攻克AI视觉识别难题让机器学会认人而非认景
看到一张照片,我们人类能轻松分辨出画面中的人或物,哪怕背景天差地别。但你可能想不到,如今最顶尖的AI视觉系统,却常常犯下“张冠李戴”的错误——它们往往更依赖背景环境,而不是识别对象本身来做判断。这就好比一个人总是通过房间的装修来认人,而不是看脸,结果自然是只要房间一样,就认定是同一个人。 最近,一项
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

