5年白领下岗,AGI靠RL一飞冲天?网友:这是让狗学会打麻将!
【导读】只靠强化学习,AGI就能实现?Claude-4核心成员放话「5年内AI干掉白领」,却被Karpathy等联手泼冷水!持续学习真的可能吗?RL的真正边界、下一代智能的关键转折点到底在哪儿?
只靠强化学习,AGI就能实现?
「到2030年,不靠算法创新,只要继续收集数据,针对性训练,就能实现AGI。」
最近,这一关于AGI的未来道路的观点,引起了热议。
这还要从Darkesh Patel主持的播客节目说起。
即使人工智能的发展完全停滞,但收集不同的白领工作任务的数据足够容易,因此我们预计在未来五年内将看到它们实现自动化。
事后,主持人Darkesh Patel觉得事情没那么容易。
他认为目前算法并不成熟,AGI要更晚才会到来。
最大的问题在于:随着时间流逝,LLM不会像人类一样变得更好。
它们无法进行持续学习。工程师能做的就是不断修改系统提示词,但这远远不及人类能通过反馈、积累经验和自我纠错而持续进步。即便是RL微调也无法提供人类那种有机、不断适应的学习体验。
Darkesh Patel的系列推文引起了Karpathy的注意。
Karpathy同意当前的LLM能力不足,无法持续学习,无法保存学习到的经验和知识,就像人失忆一样。
Ai2的后训练负责人、「强化学习传人」Nathan Lambert,也回应了Darkesh Patel的观点。
他认为在LLM中,强化学习确实已经取得突破,而之后还有三个值得探索的方向:Scaling强化学习、稀疏奖励和持续学习。
强化学习下一步
如何将当前可验证奖励强化学习(reinforcement learning with verifiable rewards,RLVR)扩展到下一代语言模型?
甚至扩展到通用人工智能(AGI)或超级人工智能(ASI)?
即便我们真希望如此,但最乐观的设想也有一个前提:RL是否具备解决更高难度任务的能力。
目前的训练方法在处理数学或编程问题时,每个答案通常生成1万到10万个token。而设想的下一代RL训练中,单个答案可能需要生成100万到1亿个token。
这意味着每次训练要整合多个推理调用、提示以及与环境的多轮交互,纳入到统一的学习回合(Episode)中,并据此更新策略。
然而,RL能否适用于新领域,目前远不像它在现有训练机制中那样明确。
在现有方法中,模型只需完成一次任务,例如解决一道编程题、算出一个数学答案或完成一次信息检索,就能根据表现获得奖励。
但RL并不能「魔法般」地让我们训练出能优化整个代码库、开展现实世界科学实验或制定复杂策略的语言模型。要实现这些目标,仍需重大的技术突破和基础设施的升级。
因此,当我们说「Scaling RL是提升语言模型性能的最短路径」时,真正的含义是
继续沿用当前模型的扩展方法,而不是一下子进军全新的复杂应用领域。
这种「超长回合」的强化学习,与「持续学习」(Continual Learning)的理念密切相关——
也就是语言模型与现实世界不断交互,持续进步。
从结构上看,扩大RL训练规模很可能是未来发展的前沿方向,但目前还不确定的是:要扩展的这些新任务,是否在训练效果上具有本质上的不同。
以下三个相关方向,依旧值得展开讨论:
推理中继续扩展RL——也就是在不依赖重大算法创新的前提下,继续在数据规模和应用领域上扩展当前的RLVR技术。
将RL应用于反馈稀疏的任务——例如那些需要数小时甚至数天才能获得反馈的科学研究或机器人任务。随着传统领域的训练逐渐饱和,AI实验室的研究重点自然会转向这些方向。
实现语言模型的持续学习——即模型根据实际使用情况不断更新参数,而不是一旦训练完毕就固定权重,进入只负责推理的静态状态。
推理任务中继续扩展RL
从建模的角度来看,随着预训练与后训练方法的演化,未来的趋势可能是:
预训练进一步降低,而后训练的强化学习(RL)阶段将显著延长。
更长的RL训练周期,自然呈现出类似「持续学习」(Continual Learning)的特征:训练可以从某个中间阶段的RL检查点继续,执行偏好对齐与安全性相关的后训练,最终产出可直接部署给用户的模型。
不过需要指出的是,这并不是严格意义上的「持续学习」。它更多意味着:
模型的发布将更加频繁,每次训练的周期也更长。
对于训练团队而言,这是重要的转变。
过去,只有在预训练完全结束后,才能启动后训练,最后评估模型的性能。比如说,GPT-4或GPT-4.5(又称Orion),这些模型通常需要大量后训练来「驯服」预训练模型,但性能难以预测,完成时间也具有高度不确定性。
可预见的是,未来几年整个行业将进入以RL扩展为核心、强调持续优化的迭代模式,整体上类似「持续学习」。
在Dwarkesh Patel看来,真正的「持续学习」应更像人类「活到老,学到老」。也就是说,模型能够从经验中学习、调整参数,从而在特定任务上不断改进。
「从失败中学习」的机制,是当前智能系统所缺失的一块核心拼图。
毕竟,人类之所以特别,就在于我们具备极强的适应能力,并能从反馈中迅速成长。
与此相关,Arc Prize组织也提出了另一种衡量智能的方式: 他们称之为「技能获取效率」(skill acquisition efficiency)。
无论是实现Dwarkesh所设想的「持续学习」,还是提升「技能获取效率」,要在这两个方向取得实质进展,都极其困难。
相比之下,像「推理时扩展」(inference-time scaling)这样的方式则更容易实现和理解。
所谓「推理时扩展」,本质上是进一步放大思维链提示(CoT prompting)方法。在训练与应用阶段加大力度,它可以将模型性能提升10倍甚至100倍。
但要真正实现「持续学习」——尤其是在模型规模不断扩大、应用场景日益复杂的背景下
——则需要颠覆性的科学突破。 这种突破,往往具有极高的不确定性。
我们确实可以通过更高效的编程系统,持续优化当前模型体系。 但要实现更智能的目标,仍离不开人类的创造力与开放式研究的推动。
稀疏强化学习扩展中的难题
如前所述,当前业界正积极探索:
将现有的强化学习(RL)机制与可验证奖励机制结合,并不断扩大应用范围。
在这种模式下,模型发布频率更高,可以更频繁地交付更新版本。 由于开发重心正逐渐转向后训练阶段,模型的迭代优化也变得更加自然和高效。
但在另一个极端,我们也谈到过——
若试图在现有语言模型的基础上,构建真正意义上的「持续学习」系统, 本质上,是一种高度不确定性的尝试。
而介于这两者之间的方向,即:
尝试将RL应用于反馈稀疏、评估周期较长的任务领域,前景更具争议 。
从个人角度,对此Nathan Lambert持略为悲观的态度。
原因在于,这类研究路径在实践中,越来越像复杂机器人系统的研究。而在机器人领域,端到端的强化学习,并不是当前公认的最佳方案。
这一事实提醒我们:将RL拓展到稀疏反馈领域时,必须格外谨慎,不能盲目套用已有的训练范式。
真需要「持续学习」吗?
AI应该像人一样,能在互动之后获得永久性的成长。
这个愿景虽然美好,但也暗藏隐患,甚至带有某种危险。
事实上,当前实现「持续学习」的最接近方式,其实是推荐系统。
很多人惊叹推荐系统能在短短几分钟内精准捕捉到个人兴趣,这其实就是通过用户交互进行的即时学习。
但想象一下,如果这种能力被赋予超强理解力的AI模型,并且背后的交互反馈机制又被某家公司所掌控,那将带来一系列令人不安的后果。
其实,也有一些更稳妥的替代方案。
比如说,虽然ChatGPT当前的「记忆」功能还不完美,但它已经可以根据你过往的纠正,避免重复犯错。
这种基于历史对话记录的记忆机制,虽然没有更新模型权重,但在体验上,其实已接近「持续学习」。
如果觉得还不够强,那我们可以继续等待技术成熟:
让本地模型边用边学,真正实现私有化的持续进化。
这些路径虽然发展更慢,却能显著降低「超级偏见AI」的风险。
在这场讨论中,有一个词其实更容易被大众接受——「个性化」。
相比之下,「持续学习」这个提法,更有利于AI巨头。 因为他们可以从每一位用户的交互中提取数据、反哺模型。但对这些AI实验室而言,真正的个性化其实和他们的战略相悖。
他们更倾向于:用少数几个通用模型,服务成千上万的用户。
而如果开源模型能持续进步,或许真的能迎来「个性化」时代—— 每个人都拥有属于自己的专属AI。
图灵奖得主
从经验中学习
早在1993年,2024年度图灵奖得主Richard Sutton就写下这样一段话:
我从智能体(agent)与环境之间的互动关系起步,因为目标的设定、选择以及信息的获取,都是基于这种互动。
可以说,这种互动是唯一真实存在的事物,我们对世界的所有理解正是由此而来。
他的核心观点是,智能的本质,是智能体与环境之间的直接交互体验——即来回传递的信号。
从逻辑上讲,这几乎是不证自明的:智能体的智能只能通过它的行为展现出来,而这种行为的好坏又只能通过对环境反馈的影响来评估。
所谓「了解环境」,对智能体而言,其实就是了解这些交互造成的效果。
智能体所感知的一切世界,其实都来自自身不断接收到的经验流。
不管如何抽象世界,例如物体、物理规则或其他智能体等复杂概念,对于一个智能体来说,这些不过是经验中反复出现的模式。经验流构成了智能体全部的输入和输出,它的智能行为正是在对这些经验的理解和处理中显现出来。
这一看似显而易见却颇具颠覆性的思想,正是他研究生涯的出发点。
他认为随着主流AI范式演变,人类将进入「体验时代」。
图1:主流AI范式的演变时间简图。纵轴表示整个领域中用于强化学习(RL)的研究精力和计算资源的大致比例
体验时代的到来标志着AI的关键转折。
在已有的坚实基础上,智能体将突破「人类衍生数据」的局限。
它们将更多依靠自身与世界的互动进行学习。通过观察和行动,智能体能主动与环境交流。在持续终身的体验中,它们不断适应和进化。它们的目标可以设定为任何基于现实信号的组合。
借助超过人类的推理能力,智能体能规划决策,用行动影响环境。随着体验数据的积累,规模与质量最终将超过人类生成的数据。
这种范式转变,结合强化学习的进步,将催生许多超越人类极限的新能力。
参考资料:
https://x.com/natolambert/status/1932102119265554789
https://www.interconnects.ai/p/what-comes-next-with-reinforcement
http://incompleteideas.net/CCAIprop2025.pdf
https://www.dwarkesh.com/p/timelines-june-2025
https://storage.googleapis.com/deepmind-media/Era-of-Experience%20/The%20Era%20of%20Experience%20Paper.pdf
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。

游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。