Ilya重磅发声:Scaling时代终结!自曝不再感受AGI

2025-11-26 发布 · 浏览18次 · 点赞0次 · 收藏0次

【导读】Ilya重磅访谈放出!1个半小时,全程2万字,他爆出惊人观点:Scaling时代已终结,我们正走向研究时代。

Scaling时代已终结!

Ilya一现身,金句必出。还记得NeurIPS 2024上,他曾向世界宣告:「预训练时代终结」。

这一次,Ilya在镜头前平静地说出这句话时,整个AI圈都屏住了呼吸——

我们已从Scaling时代,正走向研究时代。


在这场与著名主持人Dwarkesh Patel的深度访谈中,Ilya几乎把当前AI研究最刺痛的真相揭开了:

不仅仅是预训练,就连Scaling Law这条路,已经被他判了「缓刑」——还能继续走,但绝不会通向AGI!

他还指出,今天的模型再强,泛化能力也远远配不上其参数量和Benchmark的分数,甚至远逊于人类。

最关键的是,Ilya已对技术缺失的环节形成清晰的思路,但选择暂不公开更多的细节。

这场长达1个半小时对谈,Ilya还探讨了SSI战略、AI模型泛化能力提升关键,以及AGI未来的发展路线。

核心亮点一览:

  • 当前技术路线后劲不足——模型虽持续改进,但无法实现AGI

  • 真正可行的系统架构我们至今尚未掌握构建方法

  • 核心瓶颈:泛化能力,而模型在此领域远逊人类

  • 即便用所有编程竞赛题目训练模型,它仍无法形成真正的「解题直觉」

  • 评估分数光鲜亮丽,但实际性能滞后——RL训练最终演变为对评估指标的过度优化

  • 真正的奖励机制黑客,实则是设计这些基准测试和研究循环的科研人员

  • ASI可能在5-20年内降临


这场对话,将成为这一年,或许更远未来的序章。

预训练遇瓶颈,AI与现实脱节

访谈伊始,Ilya Sutskever感慨道,「想到这一切都是真的,真的有点疯狂」!

住在湾区,经常会看到「拿出美国1%GDP投AI、某某公司又投xx美元」这类疯狂的事,就像是从科幻小说的情节。

奇怪的是,一切又好像没有什么变化。

AI模型在智力上实现了飞跃,但它们对经济的实际渗透却慢得多。

Ilya坦言,这正是当前AI令人困惑,最矛盾的点之一:

在各种基准评测中,AI模型性能的表现几乎「超乎人们的想象」,但在真实世界中,它却常常犯一些让人抓狂的错误。

假设你用vibe coding编码,出现bug→模型修bug→引入第二个bug→指出第二个bug→模型修第二个bug→又把第一个bug带回来。

至少人类在写代码时,至少知道不要重复犯同样的错误,但LLM像是在两个bug之间来回「跳房子」。

为什么会这样?这种现象背后最深层的原因,究竟是什么?

这里,Ilya给出了两种解释——

1. RL训练会让模型目标变得单一、狭隘,在某种程度上削弱了其全局感知能力,但又有时在其他方面,又增强了其「察觉」的能力。

也正因为这样,它们反而做不好一些很基础的事情。

2. 预训练会用上「全部数据」,而RL则讲究定向优化,精确界定为达成的目标使用特定数据。

也就是说,可设计的RL环境自由度大,便会有一些倾向性,即开发者不自觉地「从各种评测里获得灵感」。


再结合当前LLM泛化仍不充分这一事实,很可能解释为何「评测结果与现实应用」之间会出现明显脱节。

说了这么多,Ilya核心观点就是——

真正钻测评空子的不是模型,是设计基准和RL环境的人类研究者。

结果就是,训出的AI在参加竞赛题训练营方面无敌,但没有学会如何在陌生场景下举一反三。

他举例道,就好比两位学生,学生A把历史所有竞赛编程题刷一万个小时,成为超强的「竞赛程序员」。

而学生B也许只练了400个小时,但有真正的悟性、直觉、判断力,成绩也不错。

毋庸置疑,学生B将会在未来职业生涯发展得更好。这从侧面印证了,预训练和「天赋」是有很大的差异。

当主持人Dwarkesh问道,或许你在暗示,预训练本身没有那么强的泛化能力,之所以有效,是因为用到了海量数据,但不见得比RL泛化的好。

Ilya认为预训练主要优势有两个:第一,数据量大;第二,无需刻意挑选,有天然高度「真实性」。


情绪价值函数

那么,人类的「天赋」是什么?为什么比模型泛化更强?

在对话中,有一段核心观点非常发人深省——

人类的学习能力,不仅仅来自经验,还来自自进化硬编码的「价值函数」。

Ilya表示,科学家们曾发现,一个因为脑损伤失去情绪能力的人,智力没变、语言没变、逻辑没变,却变得极其不会做决定。

甚至,连穿袜子都要想半天。

也就是说,情绪并不是「多余的噪音」,而是决策系统的一部分。

这让我们不得不重新思考:人类与生俱来的情绪,在多大程度上是在帮我们成为一个在世界中「能正常运作的智能体」?

情绪,就是一种「价值函数」。

它会告诉你「这条路可以走」、「那条路很危险」、「这个方向不靠谱」....

再来看今天的AI,虽有类似的价值函数的训练方式,比如模型打分器,但比较脆弱、粗糙,还不是内置的。

这也就解释了,「情绪价值函数」之于预训练的重要性。

那么,预训练遭遇了瓶颈,Scaling Law又将如何呢?

Scaling时代终结

现在是「研究时代」

一直以来,人们都在说数据要Scaling、参数要Scaling、算力要Scaling,还有哪些可以Scaling的维度?

Ilya表示,预训练最大的突破,就是大家意识到的:这套Scaling「配方」真的好用。

现在,X上许多人都在讨论:Gemini好像找到了某种方式,可以从预训练中榨出更多的东西。

但是,在某个节点上,预训练总归会把数据用光的,数据显然是有限的。

或者可以这么讲:从2012年到2020年,是「研究的时代」;然后从2020年到2025年,是「Scaling的时代」。

但现在算力已经很大了,电脑已经非常非常强了,从某种意义上说,我们又回到了「研究的时代」。


我们已经见证了一种Scaling方式的转换——从预训练的Scaling,切换到了RL的Scaling。

但是,RL非常烧算力,而且现有做法效率低。

不过Ilya再次提到,Scaling价值函数,让AI以更像人类的方式学习。

也就是,为模型内置类似人类的判断直觉、稳定价值感受器,任务过程中的「自我评分」,这样才能学得更快。

Ilya指出,Scaling时代的一个后果是——scaling 把屋子里的空气都吸干了,大家就都开始做同一件事。


于是,我们来到了这么一个世界:公司数量远远多于点子数量,而且是远远多于。

Scaling时代,让大家都在做一样的事:大模型、更大模型,再大一点的模型。

但随着Scaling天花板临近,瓶颈变成了点子本身。

未来,我们将回到那种——小而美的实验产生巨大突破,大量奇怪的想法冒出来,以及不依赖超级算力的创新。

就像AlexNet当时仅用两张GPU训出,Transformer用8-64块GPU做出,包括ResNet同样如此。


也许下一次重大范式转变,也来自一套「看起来不够大」的实验。

超级智能,还有5-20年

Dwarkesh Patel更加当心ASI的风险——

超级智能的危害似乎不仅仅、会出现恶意的「回形针制造机」(paper clipper)。

他认为,ASI极其强大,我们甚至不知道该如何概念化人们会如何与它互动,以及人们会用它来做什么。所以,逐渐开放使用权限,似乎是一种更好的方式,可以分散其冲击力,并帮助人们做好准备。

关于这一点,Ilya认为即使在最顺利的发展路径中,你仍然会逐步发布它。渐进主义将是任何计划与生俱来的组成部分。

问题只在于你首先发布的是什么。这是第一点。

第二,持续学习,确实是重要且正确的。原因如下。

他举了一个例子说明语言如何影响思维。

这次,有两个词塑造了所有人的思维方式。第一个词:AGI(通用人工智能)。第二个词:预训练。

为什么「AGI」这个词会存在?这是一个非常特殊的术语。它的存在是有原因的。

在Ilya看来,「AGI」这个词存在的理由,并不主要是因为它是一个描述某种智能终极状态的重要且本质的描述符,而是因为它是对另一个已存在术语的反应,那个术语就是「狭义AI」。

如果你回溯到游戏AI的远古历史,比如跳棋AI、国际象棋AI、电脑游戏AI,每个人都会说,看这种狭窄的智能。当然,国际象棋AI能打败卡斯帕罗夫,但它别的什么也做不了。

它太狭隘了,是狭义的人工智能。因此,作为对此的回应,一些人说,这样不好。它太狭隘了。我们需要的是通用AI,一个能做所有事情的AI。这个词就获得了很大的关注度。

第二个获得极大关注的词是「预训练」,特别是预训练的配方。

他认为人们现在做强化学习的方式,或许正在消除「预训练」这个概念留下的烙印。

但预训练有这样一个特性:你做更多的预训练,模型在所有方面都会变得更好,或多或少是均匀地提升。预训练带来AGI。

但AGI和预训练带来的问题是,从某种意义上说,它们有些「矫枉过正」了。

如果在预训练的语境下,思考「AGI」这个词,你会意识到:人类其实并不是AGI。

是的,人类确实具备基础技能,但人类先天缺失海量的知识。相反,我们依赖的是持续学习。

所以当你设想:「好吧,假设我们成功造出了某种安全的超级智能。」

问题在于,你如何定义它?它处于持续学习曲线的哪个阶段?

人类好比造出了一个超级聪明的15岁少年,跃跃欲试。他懂的并不多,但他是个好学生,求知若渴。你可以对他说:「去当个程序员,去当个医生,去学习吧。」

因此,你可以想象,部署本身将包含一个通过试错来学习的时期。这是一个过程,而不是直接投放一个「最终成品」。

Ilya的意思是,超级智能并不是某种「完成形态」的心智,不需要一上来就懂得如何从事经济活动中的每一项工作。因为按照OpenAI最初的章程或其他类似的定义,AGI似乎被定义为能够胜任每一项工作、能做人类能做的每一件事。


而Ilya提出的是一种能够学会做每一项工作的心智,这才是超级智能。

一旦拥有了这种学习算法,它就会被部署到现实世界中,类似于人类劳动力进入一家组织。

Ilya认为,如果实现这种算法,很可能会迎来一波快速的经济增长。

不再感受AGI

这种局面其实非常危险。

从理论上说,我们知道它是可能实现的。只要有一个系统,它的学习能力与人类相当,但还能把多个「个体大脑」合并在一起,而这种能力是人类不具备的。那么,从物理角度来看,这样的系统是完全有可能存在的。

人类可以存在,数字计算机也可以存在,只要把这两者结合起来,这样的东西就能被造出来。

而它的威力也将是巨大的。比如你在SSI招一个人,大概六个月他就能开始「净贡献」了。人类已经学习得很快了,而这种AI的进步速度只会更快。

那你如何确保这个发展过程是良性的?SSI在这方面的优势是什么?换句话说,SSI到底有什么计划去应对这种局面?

Ilya认为实际情况是,在实践中很难「切身感知」到 AGI(通用人工智能)。

我们可以谈论它,但试想一下,当你并未年老体衰时,去谈论变老和虚弱的感觉。你可以对话,你可以试着想象,但这很难,你终究会回到现实,发现自己并非如此。

他认为围绕AGI及其未来力量的许多问题,都源于它很难被想象。

实际上,AI和AGI的本质区别是什么?就是力量(power)。整个区别就在于力量。

当力量真的很大时,会发生什么?在过去一年里,Ilya改变了一点想法——

如果很难想象,你该怎么办?你必须展示它。

他坚持认为,大多数从事AI工作的人也无法想象AGI,因为它与人们日常所见迥然不同。

他坚持认为,随着AI变得越来越强大,人们会改变行为。

我们将看到各种前所未有的事情发生,而这些现在还没有发生。举几个例子。

无论是好是坏,前沿AI公司将在未来的发展中扮演非常重要的角色,政*也是如此。

将来,竞争激烈的公司开始在AI安全方面进行合作。OpenAI和Anthropic迈出了第一小步,但这在以前是不存在的。

大约三年前,Ilya在一次演讲中就预测过的,这种事情将会发生。他还坚持认为,随着AI继续肉眼可见地更强大,政*和公众也会产生做点什么的愿望。「展示AI」是一股非常重要的力量。

Ilya还坚信,目前AI从业者之所以感觉不到AI的强大,是因为AI还会犯错。

他确信,在某个时刻,AI实际上会开始让人感到强大。当那一刻来临时,我们将看到对待安全的方式,所有AI公司都发生巨大变化。他们会变得更加充满危机感(paranoid)。

这是一个预测,但大家会看到它发生。

还有第三件事——

一直以来,大家都入坑了「自我进化AI」(self-improving AI)。

为什么会这样?因为想法比公司少。

但Ilya坚信,有一种更好的东西值得构建,而且每个人都会想要它。

那就是一个被稳健对齐(robustly aligned)、专门关爱「有感知能力的生命」(sentient life)的AI。

他特别有理由相信,构建一个关爱有感知生命的 AI,比构建一个仅关爱人类生命的 AI 要容易.

因为AI本身也将是有感知的。如果你考虑到镜像神经元和人类对动物的同理心——

你可能会争辩说这种同理心还不够强,但它确实存在。

他认为这是一种涌现属性,源于这样一个事实:我们使用模拟自己的同一套神经回路去模拟他人,因为那是最高效的方式。

Ilya预测,大概5到20年能够像人类一样学习并因此随后变得超越人类AI系统就会出现。

参考资料:

https://www.dwarkesh.com/p/ilya-sutskever-2

https://www.youtube.com/watch?v=aR20FWCCjAs

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定极速推送!

Ilya重磅发声:Scaling时代终结!自曝不再感受AGI - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。