Opus 4.8烧1万美元,冲顶AI最难考试!断崖领先GPT-5.5近4倍
【导读】ARC-AGI-1预言了推理革命,ARC-AGI-2预言了编程Agent爆发。第三代锁定新战场:谁能在从未见过的世界里最快搞清状况。Opus 4.8率先撕开口子。
就在刚刚,Claude Opus 4.8(High)拿下了这张榜单的榜首。
RHAE得分1.5%,是第二名的3倍!
但代价是,跑一次评测要烧掉整整1万美元。

要是放到别的AI测试里,1.5%这个成绩只能用惨不忍睹来形容。
但在ARC-AGI-3上,它是有史以来的最高分,而且没有之一。
此前的纪录保持者Opus 4.6(Max),得分是0.5%。
GPT-5.5更惨,只有0.4%。连Opus 4.8的零头都不到。

完整榜单是这样的(截至6月1日):
Opus 4.8(High),1.5%,1万美元
Opus 4.6(Max),0.5%,8900美元
GPT-5.5(High),0.4%,1万美元
Gemini 3.1 Pro(Preview),0.4%,2200美元
Opus 4.7(High),0.2%,1万美元
GPT-5.4(High),0.2%,5200美元
Grok 4.20(Beta Reasoning),0.1%,3800美元
Opus 4.8刷榜,最难考试新SOTA
最高分才1.5%。这张试卷凭什么这么难?
虽然之前的ARC-AGI-1和2也不简单,但依然是有标准答案的填空题。
而ARC-AGI-3是把你扔进一个从来没见过的游戏里。没有任何说明,没有任何提示。
自己探索,自己猜规则,自己推断胜利条件,自己规划路线。
测试一发布,所有前沿AI的得分直接归零。

说白了,ARC-AGI-3考的就是Agent能力。而Opus 4.8这次升级的重心,恰好全押在了这上面。
在大多数传统benchmark上,它确实只是在Opus 4.7的基础上小幅涨分。
SWE-bench Verified从87.6%到88.6%,GPQA Diamond持平在93.6%。
但在所有和Agent相关的评测上,画风直接突变。
SWE-bench Pro(更难的代码修复测试)从64.3%直接涨到69.2%,领先GPT-5.5的58.6%超过10个百分点。
Online-Mind2Web(浏览器操作测试)拿下84%,同时超过Opus 4.7和GPT-5.5。
Terminal-Bench Hard一下涨了6.8个百分点。

反过来看GPT-5.5。
它在静态推理上依然是怪物级别,ARC-AGI-2拿到85%,Terminal-Bench也都优。
但一旦任务从「解题」变成「在复杂环境中持续操作」,GPT-5.5就开始掉速。
SWE-bench Pro落后Opus 4.8超过10个百分点,GDPval-AA真实工作场景评测中,Opus 4.8以1890 Elo领先约120分,胜率67%。
换句话说就是,考「已知领域的推理深度」,GPT-5.5仍然最强。考「未知场景下的持续适应」,Opus 4.8正在拉开差距。
而ARC-AGI-3,恰好是后者的极端版本。
5帧推出规则,然后一头扎进死胡同
为了更好地分析Opus 4.8的表现,ARC Prize官方同步给出了它解题的完整过程。
总结下来,关键词只有一个——「抽象层级」。
Opus 4.7看到的ARC-AGI-3画面是一张「图片」,逐像素处理。
Opus 4.8看到的是「物体和系统」,它开始识别出画面中哪些是独立实体、哪些是背景、哪些在互动。
差一个抽象层级,结果天差地别。
在ar25环境中,Opus 4.8只用了5帧就推导出了镜像反射规则(「蓝色往左移3格,橙色就往右移3格……关于第31列镜像反射」),24步通关第一关。
在lp85环境中表现更亮眼。
这是ARC Prize官方标注的Opus 4.8「得分最高的公开环境」,多个关卡都打出了接近人类的效率。
不过,在dc22环境里,Opus 4.8虽然漂亮地通了1到3关,但在第4关时却锁死在一个错误的子目标上,怎么都不松手。
这是Opus 4.7根本走不到的阶段,也是一种全新的失败模式。
可以说,进步和新bug同时到货了。
每一代ARC-AGI,都预言了下一场战争
从诞生到现在,ARC-AGI每换一代,都精准预言了下一波AI的主战场。
ARC-AGI-1预言了推理革命。2024年底o3的突破,精准标记了大推理模型(LRM)范式的到来。半年后,推理成了所有前沿模型的标配。
ARC-AGI-2预言了编程Agent的爆发。2025年各家AI在ARC-AGI-2上快速攀升,和Claude Code、Codex等编程Agent的产品化几乎同步。
ARC-AGI-3正在测的,是交互式环境中的自主探索与适应。
如果这个规律再次成立,那么接下来这一轮竞赛的核心,将会是谁能在从未见过的世界里更快地搞清楚状况。

GPT-5.5在旧考试上赢了11个百分点。Opus 4.8在新考试上赢了近4倍。
哪张考试更能代表未来,答案可能很快就会揭晓。
参考资料:
https://arcprize.org/leaderboard
https://x.com/scaling01/status/2061513383287882111?s=20
编辑:摩西
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!
AI 中文社