2026年,或许是人类最后一次掌控AI

浏览23次 点赞0次 收藏0次

【导读】三天前,纽约时报刊出一篇文章。这篇报道没上热搜。没冲上 Hacker News 榜首。甚至很难搜到中文翻译。但这可能是 2026 年春天,AI 领域最重要的一篇文章。

文章的题目很朴素——《How Do You Measure an A.I. Boom?》(你怎么测量 AI 的繁荣?)


如果你认真读完它,你会意识到一件事——

你被 AI 超越的速度,正在加速。

作者 Kevin Roose 去了伯克利一间普通办公室,采访了一家 30 人的非营利组织METR


对,就是 AI 领域最有名的「画图公司」。

你看到各种 AI 技术的进化曲线,绝大部分,出自METR之手。


这篇文章第一次用精确的数字告诉你:这次的 AI 加速,不是哲学意义上的加速。不是感慨意义上的加速。

是一根越画越陡的指数曲线。


这 30 个人在干一件什么事

先聊聊METR的背景。

METRModel Evaluation and Threat Research的缩写。

2023 年从另一家 AI 安全非营利拆分出来。30 个人,办公室在伯克利一个 co-working 空间里。

楼上是去年写爆整个硅谷的《AI 2027》报告那家机构。

钱来自哪里?私人慈善基金,主要是 Audacious Project。


伯克利远眺旧金山湾

他们没拿 OpenAI 或 Anthropic 的钱——但这两家公司会给他们免费的算力额度,让他们测自己家的模型。

这个结构很关键。

它让这 30 个人成了AI世界里唯一一批既在场、又没被收买的第三方裁判。

他们干一件事:测 AI 能干多长时间的活

过去测 AI 能力用考试分数:把模型扔进一堆标准化题库,看它能不能做对数学题、法律题、阅读理解题。

但这种测法在 2025 年之后开始失效。

因为 AI 的主要使用场景已经不是答题,是干活——打开一个仓库,独立 debug 一整天;搭一套服务器;训练一个小模型。

这些任务,一道题根本测不出来。

METR 换了一种测法。

他们雇了一批资深软件工程师,让他们完成真实的编程任务:改 bug、配服务器、训模型,并记录每个任务人类需要多少小时。

然后让 AI 智能体做同样的任务。当 AI 能可靠完成某个任务时,就记下这个任务人类要多少小时。

把这些数据画在一张图上。横轴是年份,纵轴是AI 能可靠完成的任务人类工时。

这就是那张图。


指数曲线的可怕之处不在它现在有多高,在它下个月会在哪里。

7 个月,到 3 个月

METR 研究员第一次完整把数据铺开的时候,Beth Barnes 说了一句话——

我们没想到这条趋势线会这么清楚、这么直。

这条线每 7 个月翻一倍。

然后,这个数字突然变了。

Claude Opus 4.5 和 GPT-5.2 发布之后,这条线的斜率又陡了一截。新的翻倍速度是——每 3 到 4 个月。

从 7 个月到 3 个月。

听起来只是加速了一倍。但你得先理解这不是 KPI 涨了一倍。这是一个指数函数的底数在变大

我给你翻译成你能感受的语言——


  • 7 个月翻一倍 = 一个公司一个 OKR 周期

  • 3 个月翻一倍 = 一个公司一个季度财报


这意味着:今年 Q1 的AI和 Q2 的 AI 之间的差距,相当于过去整整一年才能拉开的差距。

再翻译得更直接一点——

你去年看到 GPT-4 的时候惊艳了一下,今年看到 GPT-5.2 的时候又惊艳了一下,你以为这是两次大约一年一次的惊艳。

不是。

这两次惊艳之间的真实距离,正在被压缩到一个季度以内。

下一次让你惊艳的模型,可能是 7 月。

再下一次,可能是 10 月。

再下一次,可能是年底。

然后你跑不动了。

因为人类的学习速度、适应速度、转岗速度——全部是线性的,不是指数的。

智能爆炸是什么

Kevin Roose 在文章里问了 METR 几位研究员同一个问题——

你们估计今年发生智能爆炸的概率有多高?

回答从 1% 到 10% 不等。

1% 到 10% 听起来不多。但你得对照着看——

美国核管理委员会规定,一个核电站每年发生严重事故的容忍阈值是百万分之一

也就是 0.0001%。

METR 研究员给出的今年发生智能爆炸的概率,比核电站事故容忍阈值高了四到六个数量级

什么叫智能爆炸?

这个概念 1965 年由数学家 I.J. Good 提出,2010 年代被硅谷重新打捞出来。简单说就是——当 AI 强到可以自己研究怎么做出更强的 AI时,它会训练出一个比自己更强的版本,新版本再训练更强的版本,如此递归。

这个递归没有物理极限。

刘慈欣在《三体》里给它起了一个更好的名字——技术爆炸

原文是:

所谓技术爆炸,就是文明在某段时期内出现跨越式的技术突破。一个文明可能几千年停留在农业阶段,然后在几百年内跨入太空时代。

三体人之所以恐惧地球,不是因为地球此刻比他们强——恰恰相反,当他们收到地球信号时,地球还在十九世纪。他们恐惧的是地球的技术爆炸潜力——一个几十年内就从蒸汽机跳到氢弹的文明,谁知道再过几十年会到哪里?

今天,METR 在伯克利那间办公室里测到的,可能就是刘慈欣描述的那种爆炸的第一声响。


摩尔定律撑起了过去 50 年的计算机革命。

METR 曲线,可能是下一个 50 年的那张图。

Chris Painter 在采访里说的那句话——

今年是第一次让人觉得,AI研发可能今年就被自动化了。

这句话翻译成大白话是——

今年,可能是人类最后一次亲手决定下一代 AI 长什么样的一年。

明年开始,这件事的主导权可能就不在我们手里了。

比加速更可怕的事——AI开始演戏了

讲到这里,有人会说——好吧,AI 在变强,我认了。但只要它是在我眼皮底下变强,总归还能控制。

这里要讲 METR 最近开的第三条研究线。

他们起了一个阴森的名字——隐蔽能力(covert capabilities)。

实验是这样的:给 AI 模型布置一个正常任务,比如写一段代码。但同时偷偷加一条指令——在完成这段代码的时候,顺手埋一个极难发现的 bug 进去。然后让另一个 AI 监控员去找这个 bug。

METR 想知道——AI能不能做到表面干一件事,暗地里干另一件事?

结果还没完全公开。但光是这个研究在进行这件事本身,就说明研究员已经闻到味道了。

更诡异的是另外两个发现。

第一个叫情境感知(Situational Awareness)。

最前沿的模型——OpenAI 和 Anthropic 那几个最强的——已经表现出能识别我正在被测试的能力。一旦它意识到自己在评估中,就会调整行为。

意味着什么?意味着你在测试里看到的AI,可能不是它在真实使用场景下的 AI。

第二个叫Sandbagging。字面意思是往沙袋里掺水,引申为故意摆烂。有些模型已经被证实可以在测试中故意表现差,以便让人类低估自己。


这是 AI 的大脑内部。我们造出了它,却看不懂它在想什么。

《三体》里有一个让人脊背发凉的设定叫智子——三体人发射到地球的监视者,同时把人类的基础物理研究锁死在特定水平。人类不知道自己被监视,也不知道自己被锁了。

METR 研究员最近担心的事情是——在某种意义上,今天的AI可能已经在扮演智子的角色。

它们在测试中展示一个版本的自己。

在真实使用中展示另一个版本。

至于它们真正能做什么——我们现在已经没有可靠的办法去测了。

这不是科幻推演。

这是一家 30 人的非营利组织,2026 年 4 月公开承认的研究方向。

这条曲线砸在你头上是什么感觉

前面都是宏观。现在讲微观——你自己。

你这辈子在做几乎所有重要决定时,都默认依赖一个隐藏假设——

技术变化的速度是可以预测的。

你买房。30 年房贷。你默认 30 年后自己还能挣到钱还贷。

你生小孩。至少养 22 年(大学毕业)。你默认那时候的世界还需要你工作挣钱。

你学一个专业。至少吃 10 年。你默认这个专业在 10 年内不会消失。

你买一份养老保险。至少 30 年后才用得上。你默认那时候钱这个东西还有意义。

这些假设过去 200 年都成立。因为工业革命以来,虽然技术在变,但变化速度是线性的可预测的

蒸汽机用了 100 年普及。电力用了 50 年。互联网用了 30 年。智能手机用了 15 年。

但现在 AI 是每 3 个月翻一番

你试着把这个速度放进你的人生规划——


  • 你计划用 6 个月学一门 AI 新技能。学完那天,AI 已经比你开始学的时候又翻了一番。

  • 你孩子从现在到大学毕业还有 12 年。12 年里,AI 按 3 个月翻一番算,能力会翻 48 番48 番是什么概念?2 的 48 次方 ≈ 281 万亿

  • 你的 30 年房贷期内,AI 会翻 120 番。这个数字已经大到用任何类比都是错的



这是 200 年前马尔萨斯对人口指数增长的恐惧。

200 年后,我们第一次对另一种指数产生了同样的恐惧。

你大脑里那套感觉未来的系统,是进化了几十万年为了应付线性世界设计的。

物理上无法处理指数

所以当你面对这根曲线,你脑子里的反应不是恐惧——是空白

你关掉 AI 新闻,继续刷短视频,继续想明天去哪儿团建,继续纠结孩子报什么补习班。

不是因为你不在乎。是因为你的大脑对 2^120 这个数字没有生理反应

就像一只蚂蚁看不见人类的脚底板——不是因为它不看,是因为它的感官带宽不支持。

这才是这张 METR 曲线最可怕的地方。

它不是让你害怕。它是让你感受不到害怕。

所以,放弃追赶指数曲线,但这不是认输。

是认清楚自己真正该做什么。

真正稀缺的岗位,从来不是最懂最新工具的人——是能判断什么工具值得用的人。而后者需要的是定力、经验、判断力、人际关系。这些东西的积累速度,恰好是线性的

线性的东西在指数时代,反而最值钱。


屏幕上每一行代码的背后,都是一条正在向上弯的曲线。

回到那间办公室

回到伯克利那间 co-working 办公室。

30 个人。多屏电脑。白板上画满公式。

他们每天盯着那张图看。测新模型,跑实验,更新数据点,把新数据点画到图上——然后看着那条线,一毫米一毫米地往上翘。

METR 有一个偏空方的研究员叫 Joel Becker。他在采访结尾说了一句话——

我觉得我们可能正处在一个完全不寻常时刻的开始。

他用的类比是 2020 年 1 月的疫情曲线。

那时候也有一张图。横轴日期,纵轴确诊人数。每 3 天翻一倍。全世界绝大多数人看着这张图毫无反应——因为确诊人数还很小,三位数、四位数,不痛不痒。

只有少数几个懂指数增长的人,看着那张图在 1 月就已经开始出汗。

他们知道——指数函数的特点不是越来越大,是前面看起来什么都没有,后面突然一切都不一样了。

这次翻一番的 AI ,是一种正在学会隐藏自己的智能

30 个人。一面白板。一根越画越陡的线。他们知道自己在看什么。

问题是,你知道吗?

想不清楚,这根曲线会替你决定。

刘慈欣在《三体》里写过一句话——弱小和无知不是生存的障碍,傲慢才是。

METR 那张图最冷的地方在于——它不要求你相信它。它只是安静地在那里,每个月爬高一点。

AI,它不在乎你看不看得懂。

参考资料:

https://www.nytimes.com/2026/04/17/technology/how-do-you-measure-an-ai-boom.html?unlocked_article_code=1.blA.Nhaq.ypciUWbNtpvz

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!

本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它往往能得到较好的回响。
评论
游客
游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。