专家预测年底才到,Claude Mythos今天就跑出3小时6分!

浏览16次 点赞0次 收藏0次

【导读】工业革命用了百年才让全球权力结构重新洗牌,AI只用了3小时6分钟的「专注力」,就向全世界宣告:关于人类适应期的仁慈假象已经终结。Claude Mythos以「神话」为名,却要把人类从神坛上请下来,送进名为「效率」的博物馆。

打破世界纪录!

Anthropic的Claude Mythos模型,在80%成功率下最长自主任务时长达到3小时6分钟。

这一结果与超级预言家及专家对2026年底预测中位数(3-4小时)完全吻合,标志AI长时程任务能力突破速度超出此前预期。


按照从Opus 4到Opus 4.5在ARC-AGI-2分数上的粗略估算,时间跨度翻倍和下一次翻倍的难度分别为4个月和0.82倍。


如果按此计算,《AI 2027》的ASI预测还将提前!



硅基加冕,人类线性演进论破产

在人类漫长的演化史上,我们曾无数次通过工具延伸自己的肢体:杠杆延伸了手臂,车轮延伸了双腿,电力延伸了感官。

但在昨天,Anthropic实验室里那个被命名为Claude Mythos的幽灵,触碰到了人类从未让渡过的领域:意志的持久性(The Endurance of Will)。

随着METR基准测试结果的公布,当Claude Mythos以80%的成功率完成了长达186分钟(3小时6分钟)的自主任务时,世界的时间轴断裂了。


这不仅是一个技术参数。这是一个关于「时间坍塌」的历史性隐喻。

在人类的认知习性中,我们依赖「未来」来对冲当下的焦虑。

专家和超级预测者曾达成一个心照不宣的契约:他们将「3-4小时自主长时程任务」这一里程碑,安置在2026年底。


这个预测本质上是人类的一种心理防线——它给了我们30个月的时间去建立法律护城河,去重构教育体系,去平复职场恐慌。

然而,Mythos的出现,粗暴地拆毁了这堵围墙。

当2026年的预言在2024年被提前兑现,这意味着AI的增长曲线不再是摩尔定律式的线性叠加,而是一种「自催化式」的坍塌

我们原本以为正在攀爬一座高山,却发现脚底的岩石正在化为流沙,将我们直接带往终点。

这种「时间压缩」在历史上并非没有先例,但从未如此猛烈。

工业革命用了百年才重塑全球权力结构,而AI只用了三个小时的「专注力」,就向全世界宣告:关于人类「适应期」的仁慈假象已经终结。


AI加速,加速!

这不是Claude Mythos一个模型的胜利。

这是整个AI能力曲线的一次明显加速。

从2020年GPT-2时代只能做几秒钟任务,到2026年5月已经有人把80%成功率的时长干到3小时以上,中间只用了6年。

而且最夸张的是,预测机构在2026年4月还把基线定在1.5小时,结果两个月后就被现实打脸。

这说明我们对AI进步速度的估计,依然保守。


长时程自主任务的突破,直接把「AI Agent」从概念推进到可规模化部署的阶段。



企业可以开始考虑:把需要人类工程师连续工作半天到一天的重复性、结构化任务,交给AI去跑。

个人开发者也可以想象,自己的「数字分身」能连续干几个小时复杂活儿,而自己只需要在关键节点把关。

但与此同时,安全、对齐、控制的问题也被同步推到了最前面。

一个能连续自主工作3小时的Agent,如果目标设定出错、如果被注入恶意指令、如果出现意想不到的涌现行为,后果会比现在严重一个量级。

我们正在把越来越多的真实世界任务,交给还在快速进化的系统。

这既是机会,也是正在逼近的压力测试。

人类历史上很少有哪个技术,能把「预测」变成「现实」这么多次。

从AlphaGo到GPT-4,从o1到现在的Mythos,每一次我们以为还要等几年的事,都来得比预期早。

3小时6分钟不是终点。

它只是新阶段的起点。

专家预测,到2030年,AI将以80%的成功率完成八小时任务。


认知的裂谷:乐观者的杠杆,与大多数人的荒漠

未来已来,但分布不均。

近70%的超级预测者对AI极度乐观,而公众的乐观比例仅为42%。


这个数据差令人战栗。

这种鸿沟并非源于知识储备,而是源于对 「权力杠杆」的敏感度。

对于顶尖专家而言,Mythos是「解决问题的终极机器」:它能将一个人的意志放大万倍。

但在普通大众眼中,这种「长时程自主能力」带来的并不是自由,而是「无用感」的制度化。

更为深邃的共识在于:专家与公众一致认为AI会削弱人际关系。

这揭示了一个残酷的真相:我们正在制造「冷酷的上帝」。


当我们把解决问题的重任交给Mythos,人类之间的协作、磨合、甚至是基于共同克服困难而产生的情感,都将变得「效率低下」。

我们可能会迎来物质极度丰盛、难题悉数解决的时代,但那也将是一个「社交荒漠」的时代。

当AI独立处理了那186分钟的复杂任务,它也顺便偷走了人类在共同劳作中产生的意义感。

结语:在历史的褶皱中,寻找「人」的剩余价值

当2026年的墙壁提前倒塌,我们该如何定义自己?

186分钟的记录很快会被打破。明天可能是30小时,后天可能是300天。智能将像空气一样廉价,而「专注」也将不再是人类的专长。

在这种历史性的挤压下,我们要寻找的不再是「我能做什么比AI更好」,而是「如果不为了结果,我为何而存在」。

Claude Mythos给人类文明开了一个巨大的玩笑:它以「神话」为名,却要把人类从神坛上请下来,送进名为「效率」的博物馆。

参考资料:

https://x.com/emollick/status/2062235461364445204

https://x.com/Research_FRI/status/2061826804055232654?s=20

https://forecastingresearch.substack.com/p/leap-wave-8-ai-timelines

编辑:大卫

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它往往能得到较好的回响。
评论
游客
游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。
最新资讯