Karpathy泼冷水:AGI要等10年!根本没有「智能体元年」
【导读】在近日的一次访谈中,Andrej Karpathy深入探讨了AGI、智能体与AI未来十年的走向。他认为当前的「智能体」仍处早期阶段,强化学习虽不完美,却是目前的最优解。他预测未来10年的AI架构仍然可能是类似Transformer的巨大神经网络。
在最新一期的《Dwarkesh Podcast》里,Andrej Karpathy,这位OpenAI的创始元老、前特斯拉AI团队负责人、深度学习的大佬,与主持人Dwarkesh Patel进行了两个多小时的对话。
Karpathy畅谈了他对AGI时间线、智能体、大模型认知、强化学习等AI圈核心问题的看法。
Andrej Karpathy(左)与主持人Dwarkesh Patel(右)
AGI还有十年之遥
谈话从当前火热的「智能体」切入。
对于业内普遍鼓吹的「智能体元年」Karpathy显得非常冷静。
他认为行业里存在一些过度预测。更准确地说,应该称为「智能体的十年」。
「虽然我每天都在用一些非常出色的智能体,比如Claude和Codex,但它们仍是一些非常初期的智能体,还有大量工作要做,这也是我们在未来十年内要持续研究的东西」。
Karpathy所说的「智能体的十年」,是指这些智能体还需要经过大约十年的持续研究工作,才能让它们真正能用。
Karpathy列举了当前智能体的主要问题:智能不足、多模态能力弱、无法自主操作电脑等。
在他看来,这主要是由于智能体在认知上存在缺陷,也没有持续学习能力。这些基础性问题的解决,大约需要十年。
谈到大家热议的AGI何时到来的问题,Karpathy的答案是10年。
这是Karpathy基于他的个人直觉以及在AI行业大约15年的经验所做出的判断。
在这15年中,Karpathy亲自经历了AI行业的几次重要变革,并从中看到一些规律性。
他看到人们曾几次过早地试图一步到位追求完整的智能体,而忽略了一些前期必须要完成的基础工作:
「现在的智能体能力强多了,但我们可能仍然缺少这个技术栈的某些部分。」
Patel问到10年后,AI的核心架构是否还会类似Transformer的架构。
Karpathy预测未来十年AI的核心架构仍可能基于Transformer,但形态会有所演化。
他从「时间平移不变性」的角度来看待技术进步。
10年前我们主要用卷积网络,如今换成Transformer,核心机制仍是前向传播与梯度下降。
「可以打赌的是,根据平移等变性,10 年后我们仍然会用前向后向传播和梯度下降来训练巨大的神经网络,但也许它看起来会有点不同,而且所有东西都会变得更大。」
通过复现1989年Yann LeCun的卷积网络,Karpathy发现仅靠算法改进可将误差减半,但若要进一步提升,必须依靠更大的数据、更强的计算力和更优的软件系统。
换言之,算法、数据、硬件与系统的进步缺一不可,它们的贡献几乎同等重要。
展望未来,Karpathy认为我们仍会使用梯度下降训练超大模型,但算法、结构和效率将进一步优化。
Dwarkesh Patel还问到学习nanochat的最佳方式是什么。
Karpathy认为真正学习知识,要从你从头开始构建一些东西时开始。因为这时你才会被迫面对你所不理解的东西。他相信费曼的一句名言:「如果我不能构建它,我就不理解它」。
所以,他给出的最佳学习方式是:
「不要写博客文章,不要做幻灯片,去构建代码,并让它工作,这是唯一的学习途径。否则你就会缺少知识。」
大模型的认知缺陷
谈及当下最热门的大模型,Karpathy认为它们仍存在根本性的认知局限。
Dwarkesh Patel:你在推特上说,编码模型在组装这个代码库时对你帮助不大,我很好奇为什么会这样。
Karpathy回顾,自己在构建nanochat代码库时曾尝试过 Claude Code/Codex这类「编码智能体」,但由于它们没法很好地工作,所以代码基本上都是手写(配合自动补全)。
他将人们与代码互动的方式主要有三类:
第一类,全部手写:完全拒绝所有的大语言模型,他们只是从头开始写,这可能不再是正确的做法了。
第二类,手写+自动补全:即仍然从头开始写很多东西,但会使用模型提供的自动补全功能。
自动补全的代码大多数时候是正确的,遇到错误的地方再编辑它。因此,很大程度上你仍是你所写东西的架构师。
第三类,完全「凭感觉编程」,完全让智能体去做。
Karpathy认为,虽然智能体有不少优点,比如它们非常擅长做样板代码,但遇到像nanochat这样的「智力密集型代码」可能就搞不定了,因此我们应当学会在特定的环境下使用它们,了解它们的优缺点以及使用方法。
总体而言,Karpathy认为这些模型的发展仍处于中间阶段,仍然需要大量的工作。
在他看来,这个行业「跳」得太快了,有时假装很神奇,但可能只会出现粗制滥造的东西。
以编码为例,目前「手写+自动补全」仍是Karpathy的最佳选择。
强化学习虽然很糟糕
但没它更糟
在被问及如何让AI进一步学习和改进时,Karpathy提到了强化学习的两难处境。
他坦言,强化学习并不完美,但相比过去的方法,它仍是目前最优解,因为以前我们只是模仿人。
在强化学习中,假设要在解决一个数学问题,首先会尝试数百种不同的尝试,这些尝试的过程可能很复杂,而且还会产生许多「噪声」。
但人类在解决问题时绝对不会这么做,不会去做几百次推演;而且当一个人找到一个解决方案时,他们会有一个非常复杂的审查过程,目前的LLM还不能做到这一点。
传统监督只在任务结束后给予奖励,而过程监督希望在每一步提供反馈,但实现起来极为困难,因为难以准确地将部分奖励分配给中间步骤。
为了解决这一问题,研究者尝试让大语言模型(LLM)充当评委,对模型的中间输出进行评估并打分。然而,这种方法存在严重缺陷:由于大语言模型本身拥有庞大参数空间,极易被对抗性样本欺骗。
强化学习过程中,模型可能找到奇怪的「漏洞」,生成毫无意义的输出,但仍能获得高分奖励。
这揭示了一个根本问题:评委模型并不可靠,其泛化能力不足,难以防御无穷无尽的对抗样本。
虽然可以通过不断加入反例来改进评委模型,但这种方法并不能彻底解决问题。
Karpathy认为,未来可能需要引入更高层次的「元学习」或合成数据机制来改进模型评估,但目前尚无实验室在大规模通用环境下成功实现这一点。
在他看来,强化学习的局限不是终点,而是下一代学习范式的起点。
人类学习与机器学习的对比
梦或许是这样一种生物机制——用于防止思维过度拟合现实,让我们探索非现实场景。
在对话中,Patel还谈到了梦在机器学习方面的作用。
Dwarkesh Patel:我不确定做白日梦或睡觉,或者仅仅是反思,在机器学习中的类比是什么。你对这件事有什么看法吗?
Karpathy认为,人类在学习时不仅吸收信息,还通过反思、讨论等方式整合知识,而当前大模型仅仅通过预测下一个词进行学习,缺乏这种「思考」过程。
他指出,若模型通过自我生成合成数据来训练,往往会陷入「坍塌」。人类学习的噪声与多样性可以防止这种坍塌,因此需要外部熵输入(如交流、梦境)。
在Karpathy看来,与大模型相比,人类的「不擅长记忆」反而是一种进化优势,迫使我们学习可泛化的模式。他认为,未来的AI应减少机械记忆,更像人类那样依靠思考与探索来学习。
由于互联网上充斥大量的无用数据,因此Karpathy认为训练数据来源于互联网是一件很糟糕的事情,需要构建非常大的模型来压缩记忆工作,而真正重要的工作是认知部分。
换句话说,真正的智能不在于记忆更多,而在于理解与泛化。
如何看待AI的进步?
我们应该如何看待AI的进步?
Karpathy把AI看作计算的延伸。关于通用人工智能,他一直非常喜欢这样一个定义:
通用人工智能是一个能够以人类或更好的表现完成任何有经济价值的任务的系统。
而且,与它最初的定义相比,人们已经把所有「物理性的东西」都拿掉了,比如只在谈论知识工作,这是一个让步。
哪些工作会率先被AI取代?Karpathy提到了Geoff Hinton的一次预言「翻车」的例子。
Geoff Hinton曾预测放射科医生将不再是一个职业,结果却在很多方面都大错特错——放射科医生们活得很好,而且还在增长:即使计算机视觉在识别图像领域非常擅长。
但放射科是一个非常复杂的工作场景,不仅涉及读片,还要与病人打交道,以及所有这些场景下的事情。
即使是被经常提及的呼叫中心的工作,也没有完全实现AI自动化。
在这个场景下,Karpathy认为一种比较理想的状态是引入做80%工作量的AI,它们将20%的工作量委托给人类,由人类监督着AI组成的团队完成工作。
现实中许多工作都要比呼叫中心员工难得多。
Karpathy更看重AI与人类的互补,而非替代。
超级人工智能
Dwarkesh Patel:你如何看待超级智能(ASI)?你期望它会感觉与普通人类或人类公司有质的不同吗?
Karpathy认为,超级智能(ASI)只是社会自动化进程的自然延伸。
「很多事情会逐渐自动化,而超级智能将是这种趋势的延伸。我们期望随着时间的推移,会有越来越多自主的实体:它们在做大量的数字工作,最终甚至可能会从事体力工作。」
在一个AI存在的文明中,会和以往的人类社会有什么质的不同?
在Karpathy看来,AI从根本上是自动化,这种自动化会看起来「非常陌生和奇怪」,「当世界在一个计算机集群上运行时,让人紧张的一点是逐渐失去对正在发生的事情的控制和理解」,而且当这些「逐渐失去的理解」叠加起来,就会有越来越少的人理解它。
这是在Karpathy看来最可能出现的结果。
当谈到真正的通用人工智能之后是否会看到「智能爆炸」,Karpathy认为这是必然的,而且我们持续处于「智能爆炸」中已有几十年。
从工业革命开始,所有东西都在逐渐自动化,并且已经持续了数百年。
因此,「我们一直处于递归式自我改进和智能爆炸中很长时间了」。
参考资料:
https://www.youtube.com/watch?v=lXUZvyajciY%20
https://news.ycombinator.com/item?id=45619329%20
https://www.dwarkesh.com/p/andrej-karpathy
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。

游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。