GPT-5.5参数有10T?病毒式论文刚刚被打假,实际缩水至1.5T
【导读】五一假期前,AI社区被一篇「GPT-5.5拥有近10万亿参数」的论文刷屏,今天这项研究就被研究者打假了!研究者表示,修正论文中的各种问题后,GPT-5.5的参数很可能约为1.5T。
2026年4月底,AI界被一篇名为《不可压缩知识探针》(Incompressible Knowledge Probes,简称 IKP)的论文震动了。

论文地址:https://www.alphaxiv.org/abs/2604.24827
Pine AI的首席科学家Bojie Li发表了一项研究,声称通过一种全新的「黑盒探测法」,推算出了那些闭源模型的真实体量。
GPT-5.5:9.7万亿(9.7T)参数
Claude Opus 4.7:4.0万亿(4.0T)参数
o1:3.5万亿(3.5T)参数
这个数据瞬间引爆了社交媒体。
要知道,如果GPT-5.5真的达到了10T规模,那意味着它比传闻中的GPT-4(约1.8T)大了5倍有余。
一时间,这个参数瞬间传遍全网。

然而,仅仅几天后,反转就来了。
逻辑的漏洞:从10T到1.5T的缩水内幕
最近,来自UC伯克利CHAI实验室的Lawrence Chan和UK AISI的研究员Ben Sturgeon对这篇论文进行了深挖。

他们发现,这篇声称「逆推大模型规模」的爆火论文,竟然存在严重的逻辑与代码偏差。

修复这些问题后,GPT-5.5的参数约为1.5T(90% 置信区间:256B-8.3T)。

被修饰的拟合曲线
在原始论文中,作者声称没有对模型的得分进行「保底处理」(flooring)。但在复现代码时,研究者发现作者在计算小模型得分时,偷偷地将负分归零了。
科普:当模型遇到不知道的冷知识时,如果乱猜(幻觉),得分会是负数。
如果把这个「归零」操作去掉,小模型的得分会大幅下降。这意味着原本陡峭的「得分-参数」拟合曲线会变得平缓。修正后,估算的GPT-5.5规模直接从9.7T暴跌至1.5T。


「人工智障」出题:25%的题目本身就有错
研究者发现,这套用来测试模型的「冷知识题库」质量同样堪忧。
歧义性:约25%的专家知识题存在歧义(例如重名研究员)。
事实错误:部分标准答案本身就是错的。
最戏剧性的是,原作者Bojie Li后来坦言:这篇研究是他在AI智能体的辅助下,仅用4天时间完成的早期探索。
这种「AI写论文研究AI」的模式,被Lawrence Chan戏称为「充满槽点的Vibe-coding」。


核心理论依然坚挺
知识「不可压缩」
用严谨的话说,论文的核心思想——IKP 得分与对数参数数量之间的线性关系——仍然成立,但参数数量的估计却不成立。

解决这两个问题后,基于IKP的前沿模型估计的参数数量通常会下降,置信区间会扩大:
GPT 5.5:9.7T -> 1.5T
Claude Opus 4.7:4.0T -> 1.1T
DeepSeek R1(实际大小671B):424 B -> 760 B

难得的是,论文中的三种说法,承受住了各种测试,被证明依然是正确的。
比如,IKP分数和模型的参数呈对数线性关系。

总之,论文提出的核心模型依然得到了学界的认可:不可压缩知识探针(IKP)。
这个理论认为,大模型的能力可以分为两部分。
程序性能力(逻辑、推理、代码):这是可以压缩的。随着架构优化,更小的模型可以拥有更强的推理能力。
事实性知识(某人的出生日期、冷门研究领域):这是不可压缩的。
你可以把模型想象成一个硬盘,存一个事实就需要占几个比特位。
因此,测试模型到底知道多少「不可压缩」的冷知识,确实是目前探测闭源模型参数最科学的「测力计」。
谁才是真正的「知识之王」?
而且,尽管参数规模下调了,但各家模型的「有效容量」排名依然极具参考价值。
梯队格局
第一梯队(巅峰王者):GPT-5.5。虽然可能只有1.5T左右,但它在T6级别的超冷门知识表现上依然冠绝群雄。
第二梯队(贴身肉搏):Claude Opus 4.7、o1、Grok-4。这几款模型的有效容量高度接近,竞争进入白热化。
MoE(混合专家模型)的秘密:研究发现,MoE模型的知识量取决于其总参数,而非每次运行时的「激活参数」。这意味着,如果你想让模型博学,堆参数依然是唯一的硬道理。
「思考模式」的玄学
测试显示,开启「思维链」(Thinking Mode)并不能显著增加模型的知识量。这再次印证了:思考能提高逻辑,但不能凭空变出你没读过的书。
最后,Lawrence Chan吐槽说:这项工作果然是AI智能体在四天内完成的,因为网站和代码库到处都体现着vibe coding的粗糙风格。

GPT-5.5参数有9.7T?
4月30日,Pine AI的首席科学家李博杰的这篇论文引发了热议。

核心观点是:事实性容量与模型规模呈对数线性关系。
论文展示了 7 个知识层级,其中T7对所有模型来说几乎都是0%左右,这表明预训练仍有巨大的提升空间。

Gemini 3.1 Pro很可能超过 10T,因为它被用作锚点,但论文中没有对其直接估算。
这意味着,我们可以在一定程度上推断不同模型的训练成本,以及它们的后训练效果——即在给定规模下,在某些非事实性任务上的表现。
在原作中,李博杰构建了一个包含1400个事实性问题的数据集,并将准确率与参数数量进行拟合。
通过反转拟合,从闭源模型的数据集得分,研究人员推断出其参数数量。

特别要注意最后一行的90%预测区间「Predicition interval, PI」非常大。
此前,就有网友注意到这些「规模只是推测,不应当作事实」。

现在许多人,想知道估算对方法论有多敏感——

李博杰直言,「同一个评估任务,结果横跨60倍区间 → 任何单一的点估计都不诚实。」

不过,IKP本是一个起点,而非终点。
作者坦诚自己匆忙上传了一篇未成熟的arXiv论文,只是为了把这个想法放出来。
论文、代码、数据集和网站都是在 4 天内完成的,主要借助 Claude Code,发布前未经同行审阅。采用下限处理和 λ=−1,是为了在开放权重模型上最大化R²。
我们期待未来的工作能将它做得更好!
Scaling Law失效了吗?
这次「参数神话」的破灭,给行业敲响了警钟:盲目崇拜大数字的时代正在过去。
GPT-5.5从10T降到1.5T,并不意味着它变弱了,而是意味着OpenAI可能在数据质量和参数效率上做了更惊人的优化。
正如Lawrence Chan在总结中所说:「GPT-5.5到底有多少参数?我们依然不确定。但这种通过探测知识容量来反推规模的方法,为我们揭开黑盒模型的面纱提供了一条新路径。」
在通往AGI的路上,我们需要的或许不再是更大的硬盘,而是更聪明的索引方式。
参考资料:
https://x.com/deedydas/status/2049523583517634862
https://x.com/justanotherlaw/status/2050399317782155726
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!
AI 中文社