GPT-5.5参数规模真相：10T传闻不实，实际仅1.5T

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

GPT-5.5参数规模真相：10T传闻不实，实际仅1.5T

热心网友时间：2026-05-17

转载

五一假期前夕，AI领域被一则重磅消息引爆：一篇最新论文声称，通过一种创新的“黑盒探测方法”，成功推算出GPT-5.5可能拥有接近10万亿参数的惊人规模。这一数字迅速在技术社区引发热议，因为它比外界普遍推测的GPT-4参数量高出数倍。然而，热度尚未消退，剧情便迎来了反转。

这篇题为《不可压缩知识探针》的论文，由Pine AI首席科学家李博杰发布在预印本平台arXiv上。其公布的估算结果极具冲击力：

GPT-5.5：9.7万亿参数
Claude Opus 4.7：4.0万亿参数
o1：3.5万亿参数

很快，来自加州大学伯克利分校CHAI实验室的Lawrence Chan与英国AISI的研究员Ben Sturgeon对这项研究进行了深入审查。他们发现，论文中存在一些关键的方法论与代码实现偏差。

逻辑的漏洞：从10万亿到1.5万亿的估算缩水内幕

在修正了这些问题后，结论发生了戏剧性变化。最受瞩目的GPT-5.5，其参数估算值从9.7万亿急剧下降至约1.5万亿，并且90%置信区间变得异常宽泛（从2560亿到8.3万亿）。

问题究竟出在哪里？主要集中在以下两个核心环节。

被修饰的拟合曲线

论文作者声称未对模型得分进行“保底处理”，但复现者发现，在计算小型模型得分时，负分被悄然归零了。这一点至关重要：当模型面对完全未知的冷僻知识时，若进行随机猜测，得分很可能为负。移除这一“归零”操作后，小模型的得分显著降低，导致原本陡峭的“得分-参数”拟合曲线趋于平缓，最终使得对大语言模型的参数估算严重高估。

“人工智障”出题：25%的题目本身存在错误

另一个硬伤在于测试数据集的质量。研究者指出，用于探测模型知识容量的那套“冷知识题库”本身质量堪忧。大约四分之一的题目存在歧义（例如研究员姓名重复问题），甚至部分标准答案本身就是错误的。使用这样的数据集来衡量大型语言模型的“知识储备”，其可靠性与准确性自然大打折扣。

更具戏剧性的是，论文作者李博杰后来坦言，这项研究是在AI智能体的辅助下，仅用4天时间完成的早期探索。这种开发模式被Lawrence Chan戏称为“充满槽点的Vibe-coding”。

核心理论依然坚挺

尽管具体数值遭遇“打假”，但这项研究提出的核心思想——不可压缩知识探针理论——依然获得了学术界的认可。这或许是整个事件中最有价值的收获。

简而言之，IKP理论认为，大语言模型的能力可以拆解为两个部分：

程序性能力（如逻辑推理、代码生成）：这部分是“可压缩”的。通过模型架构和训练算法的优化，参数量更小的模型完全可能具备更强的推理能力。
事实性知识（如历史日期、冷门概念）：这部分是“不可压缩”的。你可以将模型视为一个存储设备，记忆一个事实就需要占用一定的“存储空间”。知道就是知道，不知道就是不知道，很难通过压缩或纯粹推理获得。

因此，通过测试模型掌握了多少这类“不可压缩”的冷知识，来反推其参数规模，这个方法论的方向本身是成立的。修正偏差后，基于IKP的估算虽然数值变化巨大，但不同模型之间的相对“知识容量”排名依然具有参考意义。