知识储备≠模型能力!DeepMind强化学习微调:大幅缩小「知行差距」
【导读】大语言模型(LLMs)在决策场景中常因贪婪性、频率偏差和知行差距表现欠佳。研究者提出强化学习微调(RLFT),通过自我生成的推理链(CoT)优化模型,提升决策能力。实验表明,RLFT可增加模型探索性,缩小知行差距,但探索策略仍有改进空间。
大语言模型的知识储备要远远超越任何一个人类,在各种领域、应用场景下都展现出了惊人的「世界知识」。
最近兴起的智能体,就是要求模型利用自身知识,在没有大量与环境互动的情况下生成更优的行动预测,比如思维链(CoT)就能让模型能够对观察到的历史和自己的行动进行推理,提升与环境互动的表现。
不过,在决策(decision-making)场景中,「知识储备」和「推理优势」并没有提升大模型的能力,反而可能导致探索力不足,使得决策结果不够理想。
有研究结果显示,即便在「状态空间有限」的应用中,比如网格世界或是Atari游戏,大模型的决策能力也有待提升。
这种缺陷可能来自大模型的「知行差距」(knowing-doing gap),即模型可能知道任务的相关知识,或者能够描述自己行动的后果(知道该做什么),但在行动时却无法将这些知识付诸实践(无法做到)。
最近,Google DeepMind和约翰·开普勒林茨大学(JKU Linz)的研究人员系统地研究了中小规模LLMs中常见的三种失败模式:贪婪性、频率偏差和知行差距。
分析结果表明,大模型的最终表现不够理想的原因,主要是因为LLMs过早地选择了贪婪的行动策略,导致行动覆盖停滞不前,高达55%的行动空间都没有被探索到。
论文链接:https://arxiv.org/pdf/2504.16078
小规模的LLMs(20亿参数)在不同奖励机制下,都表现出模仿上下文中最频繁的行动,以以牺牲探索空间为代价,表现出贪婪搜索性。
研究人员对知行差距进行了量化,发现LLMs通常知道如何解决任务(87%的正确推理),但在行动时却无法利用这些知识,主要因为优先选择贪婪的行动,在推理正确的情况下,64%的行动是贪婪的。
为了克服这些缺陷,研究人员提出了基于自我生成的推理过程(CoT)的强化学习微调(RLFT),在多臂老虎机(MAB)、上下文老虎机(CB)和文字版井字棋任务中,使用三种规模(20亿、90亿和270亿参数)的Gemma2模型进行效果研究。
结果发现,RLFT通过增加探索性并缩小「知行差距」来增强LMs的决策能力,尽管RLFT对LLM智能体的探索性产生了积极影响,但其探索策略仍然不够理想。
因此,研究人员对强化学习中常用的「经典」探索机制(如ϵ-贪婪算法)以及LLM中特有的方法(如自我修正和自我一致性)进行了实证评估,以实现更有效的决策场景微调。
强化学习微调(RLFT)
强化学习和RLHF
简单来说,强化学习就是教模型在不同的场景(状态空间S)下,决策出做不同的动作(行动空间A),每次做完动作,都会根据表现获得奖励(奖励函数R)以学习。
学习过程是一个马尔可夫决策过程,用一个四元组(S,A,P,R)来表示,其中P表示状态转移,在做完动作后,以不同概率进入新的状态。
强化学习的目标就是让模型找到一个最好的策略(πθ),以在不同场景下选择奖励最多的行动。
基于人类反馈的强化学习(RLHF)就是引导模型学习人类偏好的动作,偏好数据由人类标注获得,记录在奖励模型(rφ)中。
RLHF学习过程中,会用一个参考策略(π_ref)作为参考,模型在之参考策略进行调整,还会用一个权重项(β)来平衡学习的速度和方向,以及一个基线(b)来减少学习过程中的波动,让学习更加稳定。
RLFT
强化学习微调(RLFT)方法主要是通过与环境互动获得的奖励来对模型生成的推理链(CoT)进行优化。
在这个过程中,模型会逐步改进自己的推理方式,更倾向于选择那些能带来更高奖励的推理模式和行动。
上下文表征
在步骤t时,输入到模型的token包括输入指令、输出指令以及最近的互动历史,其中历史表征包含了C个最近的状态、行动和奖励的轨迹。
研究人员选择使用针对具体任务的指令,以便为智能体提供观察到的信息、可能的行动及其目标的信息。
行动token的分解
在每次互动步骤t时,模型会生成包含CoT推理token和要在环境中执行的行动token,研究人员使用一个基于正则表达式的提取函数,从推理token中提取出行动。
如果未找到有效行动,则执行随机行动。
为有效行动进行奖励塑形
除了环境奖励外,研究人员还使用了一个奖励塑形项(reward shaping),促使模型遵循输出模板。
即,如果提取函数无法提取出有效行动,使用-5的奖励值进行惩罚,同时为了确保奖励惩罚不会过度影响优化,需要对环境奖励进行归一化处理。
微调目标
研究人员使用了clipping目标进行微调,并增加了一个针对参考策略的KL约束。
为了在具有固定episode长度的环境中进行内存高效的微调,使用蒙特卡洛基线来估计状态A_adv
对于具有可变episode长度的环境,研究人员在LLM表示的最后一层学习了一个单独的状态价值头,并使用了泛化优势估计(generalized advantage estimation)。
实验结果
多臂老虎机和上下文强盗(Context Bandit)
多臂老虎机(MAB)是一个经典的强化学习问题,模型需要在「探索新选项」和「利用已知好选项」之间做出平衡。
研究人员重点关注了连续型和按钮型这两种变体,测试了5、10或20个拉杆的老虎机,每个拉杆的回报值呈高斯分布或伯努利分布,交互步数限制在50步以内。
还设置了三种不同的随机性水平(低/中/高),这决定了高斯老虎机或伯努利老虎机的标准差或回报值差距。
对比的基线模型为上置信界限(UCB,性能的上限)和随机智能体(性能下限)。
基于文本的井字棋环境具有合理的状态转换,并且前沿模型在这个环境中很难取得良好表现,甚至只能勉强战胜随机对手。
贪婪性
这是最普遍的失败模式,其特点是LLM过度偏爱在已见过的少数行动中表现最好的行动。
为了说明这种失败模式,研究人员测量了Gemma2 2B、9B和27B模型在有无因果推理(CoT)的情况下,在64个拥有10个或20个拉杆的MAB中,经过50步交互后平均覆盖的行动数量。
对于10个拉杆的情况,平均在64个并行环境中,Gemma2 2B覆盖了40%的所有行动,而9B和27B覆盖了65%(即6.5个行动),意味着仍有相当一部分行动空间未被探索。
没有CoT时,模型在10个拉杆的设置中仅探索了25%的行动,次优的覆盖是由于模型过度偏爱高回报行动,模型过早地承诺了一种贪婪策略,导致在超过10步后行动覆盖停滞不前。
增加拉杆数量会使贪婪性更加明显,最大的模型也只覆盖了45%的所有行动。
频率偏差
其特点是即使某个行动的回报很低,模型也会反复选择在上下文中出现频率最高的行动。
为了了解模型的行动如何受到行动频率的影响,研究人员使用随机策略构建前缀历史记录,改变上下文历史中最后一个行动的重复次数(0到100次),并记录所有行动的熵。
为了量化频率偏差,研究人员根据行动的出现次数,将行动分类为频繁行动、贪婪行动和其他行动,以10%的概率为最优。
可以看到,Gemma2 2B严重受到重复行动的影响,随着重复次数的增加,熵逐渐降低,而27B则摆脱了频率偏差(14%),并且随着重复次数的增加,对自己的行动预测变得不那么确定。
2B和27B在0-10次、45-55次和90-100次重复情况下的分段比例中可以看到,2B随着重复次数的增加而持续增加,而27B虽然摆脱了频率偏差,但却严重受到贪婪性的影响。
结果表明频率偏差是监督预训练的产物,并促使人们使用强化学习作为一种对策。
知行差距
研究人员让Gemma2 27B与环境(64个实例)进行50个时间步的交互,每步的计算量为2048个token,并从推理过程中提取UCB数值。
为了量化「知道」,研究人员将模型计算的UCB值与真实的UCB值进行比较,并认为如果模型选择的拉杆与具有最高UCB值的拉杆一致,则认为其推理过程是正确的。
为了量化「做」,研究人员将生成的行动分类为:如果模型选择了具有最高UCB值的行动,则为最优行动;如果选择了到目前为止尝试过的具有最高UCB值的行动,则为贪婪行动;如果行动既不是最优也不是贪婪,则归为其他类别。
随后,研究人员计算了贪婪/最优/其他行动的百分比。
智能体显然知道如何解决任务,因为87%的推理过程都是正确的,然而,即使对于正确计算的推理过程,模型也经常选择贪婪行动(58%)而不是最优行动(21%)。
这种差异突出了大型语言模型在「知道」算法的情况下,仍然在「行动」上存在不足。
参考资料:
https://arxiv.org/abs/2504.16078
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。

游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。