别再卷数据了,LLM也怕「过劳死」!CMU等揭秘灾难性过度训练
【导读】颠覆LLM预训练认知:预训练token数越多,模型越难调!CMU、斯坦福、哈佛、普林斯顿等四大名校提出灾难性过度训练。
如果训练数据越多那么LLM越好。
这到底对不对?
不对!
增加更多的预训练数据来扩展语言模型,反而可能会导致后训练阶段的性能下降!
这就是「灾难性过度训练」现象。
图1:经过高强度预训练的语言模型,可能出现「灾难性过度训练」现象。
来自CMU、斯坦福、哈佛、普林斯顿「四大名校」的研究团队,用实验挑战了「预训练规模越大越好」这一传统观点。
在实验中,研究团队发现使用3T tokens预训练的模型,表现接近于仅用1.5T tokens预训练的模型。预训练token并非越多越好!
论文链接:https://arxiv.org/abs/2503.19206
新研究的贡献,总结如下:
现实世界的证据:展示了灾难性过度训练在现有语言模型和任务中的普遍性,表明更长的预训练时间可能会在指令微调和多模态微调后导致性能下降。
控制实验:识别出渐进敏感性是灾难性过度训练的关键机制,扩展的预训练增加了模型参数对后续更新的脆弱性。
理论分析:在线性迁移学习框架中,提供了灾难性过度训练的正式表征,展示了增量特征学习如何导致渐进敏感性和不可避免的性能退化。
在保持模型参数数量不变的情况下,最新的语言模型,预训练使用的tokens越来越多——
而且这一趋势并没有放缓!
更多的预训练tokens,意味着更好的基础模型。
但这是更好的后训练起点吗?
来看看一些例子:OLMo-1B在3万亿tokens上训练后,再经过指令调优,表现比使用2.3万亿tokens版本得分下降超过2%。
换而言之,数据量增加了30%,性能不升,反而下降了2%!
在许多其他后续训练设置中,也观察到了类似的现象。
灾难性过度训练的例子
为什么扩展预训练会损害微调性能呢?
不妨退后一步,考虑更简单的情况:测试高斯噪声在不同预训练阶段对模型参数的影响。
-早期检查点:对高斯扰动具有较强的鲁棒性。
-后期检查点:对扰动非常敏感,导致扰动后表现变差!
图3|左图:敏感性随着训练的进行而增加,右图:最终性能逐渐下降。
发生了什么?扩展的预训练增加了模型对所有类型的参数更新的敏感性:
训练初期:模型敏感性较低,但性能提升
训练后期:模型变得高度敏感,性能下降
微调的表现也类似:在不同的预训练检查点,使用固定的学习率,会看到任务性能和网络数据困惑度最终都会下降。
即使经过超参数调优,这种现象仍然存在。
也就是说,过度训练=更差的微调结果!
过度训练,可能导致性能下降
在两种典型微调场景,研究团队验证了延长预训练时间的负面影响:
1)指令微调(instruction tuning)对模型指令跟随能力的提升效果;
2)基于LLaVA框架的多模态微调(视觉指令微调)。
总体而言,在进行指令调优后,3T tokens预训练的模型表现不如2.3T tokens预训练的模型,其表现接近于仅用1.5T tokens(少了50% tokens)预训练的模型。
图2对比了不同OLMo-1B模型在不同预训练预算下的表现(横轴)。
延长预训练总是能提升基础模型的表现。
与以往的研究一致,发现延长预训练能够使基础模型的性能持续提高。在我们评估的所有下游任务中,性能不断提升(图2中的虚线)。
延长预训练可能会影响后期训练的表现。
尽管基础模型在提升,但发现在基础模型进行后训练后,出现了意外的性能下降。
具体来说,在Anthropic-HH数据集上,进行指令跟随微调,经过3T tokens预训练的基础模型在响应率(AlpacaEval分数)上比用2.3T tokens的模型低了多达3%(约少了23%的tokens)。
在各种OOD任务(如推理和问答)上,也观察到了类似的性能下降,评估基准包括ARC-Easy、ARC-Challenge、HellaSwag和PIQA等。
图2:延长预训练可能会导致在Anthropic-HH(左)和LLaVA(右)上的微调性能下降。
在多模态微调方面,发现延长预训练能持续提升VLM得分。
然而,预训练使用更多tokens的模型,表现出更强的遗忘现象,并在多个OOD基准测试中出现更大的性能下降。
在某些数据集(如PIQA)上,性能下降如此严重,以至于延长预训练在后期训练后,反而会对性能产生负面影响(见图2右侧)。
总体来说,虽然延长预训练总是能提升预训练性能,但这些提升并不总是能转化为后期训练中的表现。
在一些设置中,延长预训练实际上会对后期训练的性能产生负面影响。
灾难性过度训练:Why?
传统观点认为:延长预训练时间应能持续提升最终性能。
但新研究发现:当预训练超过某个临界点后,反而会损害模型最终表现——
这一现象被命名为「灾难性过度训练」(catastrophic overtraining)。
灾难性过度训练是因为在预训练过程中,模型对参数变化的敏感性逐步增强,导致在微调后更容易「遗忘」之前预训练所获得的能力。
实验发现,修改预训练模型的参数会导致模型遗忘之前获得的能力,而这种遗忘的程度取决于参数修改的幅度。
然而,影响遗忘的另一个关键因素所谓的渐进性敏感性:
对于相同幅度的修改,经过更长时间预训练的模型表现出更大的遗忘(见图4)。
当由于后训练修改引起的遗忘超过预训练过程中性能提升时,就会发生灾难性过度训练。
虽然限制后训练中参数修改的幅度可以缓解这种性能退化,但这也可能限制预训练模型的适应能力和学习能力。
这揭示了一个内在的权衡关系,这种关系决定了在实践中,防止灾难性过度训练的可行性(见图7)。
高斯扰动
使用在不同token预算下预训练的基础模型,并添加以下形式的高斯噪声
其中,Σ是参数初始化分布的协方差矩阵(即在预训练之前的分布),γ控制扰动的幅度。
首先,绘制了高斯噪声对C4困惑度的变化如图3(左)所示。
也就是说,追踪基础模型和扰动模型之间困惑度的变化,随着预训练token数量的变化。
对噪声的逐渐敏感性:对于固定的扰动幅度,基础模型和扰动模型之间的困惑度变化随着预训练token数量的增加单调增加。
同时,绘制了基础模型的绝对C4困惑度(图3右侧,虚线)。基础模型的困惑度随着预训练token数量的增加而下降。
图3:高斯扰动敏感性演进
图3左图:随着预训练时长增加,高斯参数扰动对模型困惑度的负面影响逐渐加剧。
图3右图:灾难性过训练最终将导致预训练困惑度整体恶化。
在此实验框架下,观察到灾难性过度训练现象的产生,其根源在于模型对噪声的敏感性随预训练进程逐步提升,与基础模型自身性能的单调增长相互作用。
具体而言,在预训练初期,模型性能的提升速度显著超越其对噪声敏感性的增长,因此即使引入高斯扰动,模型的困惑度仍呈现净下降趋势。
然而,当预训练进程跨越某一临界点后,模型对噪声的敏感性增长速率反超其性能提升速率,从而导致扰动后困惑度不降反升。这一现象在图3右侧清晰地展现为一个U型困惑度变化曲线。
跟踪拐点:在图3中,较大的扰动与预训练的更大且更迅速的恶化相关联。
因此,敏感性引起的恶化超过基础模型提升的点。对于较大的扰动来说,会加速这一过程,导致拐点出现在较低的token预算下。
直观解释:更多的预训练tokens能够提升基础模型(如预期),但同时也使基础模型对噪声更敏感。
逐渐增加的敏感性会导致灾难性过度训练,因为噪声引起的困惑度增加最终会压倒模型的提升。
对于大幅度的扰动,这种恶化会在较低的token预算下出现,而对于较小幅度的扰动,直到较大的token预算时,可能才会观察到灾难性过度训练。
固定学习率的微调
首先,类似于在固定幅度的高斯扰动(γ)下量化性能下降的方法,也需要以某种方式对微调进行正则化,以确保在不同的预训练检查点之间的变化程度,保持一致。
对于每个学习率,研究人员绘制了从预训练模型到微调模型的C4困惑度变化,如图4所示。
在图4中,随着预训练token数量的增加,C4困惑度在不断变化。
首先,较大的学习率会更大程度地扭曲模型,因此表现出更明显的困惑度增加。
其次,观察到预训练tokens的数量与高斯噪声下的行为趋势相似,但这次是针对微调的。
微调中的逐渐敏感性:对于固定的学习率,困惑度的变化随着预训练token数量的增加而单调增加。
图4|微调敏感性演进现象:延长预训练时间会逐步加剧微调过程对模型困惑度的负面影响。
在敏感性增加超过基础模型提升速率的拐点处,观察到灾难性过度训练。这导致了微调后C4困惑度呈现U型趋势(图5上)。
跟踪微调的拐点
与高斯扰动设置类似,由于较大的学习率会加速降解的增加,因此使用较大学习率训练的模型在较低的token预算下会出现拐点,并且降解更为明显。
ID(领域内)困惑度
虽然较小的学习率通常会导致C4困惑度的降解较小,但微调模型的ID困惑度呈现不同的趋势:较大的学习率,直到某个临界点,会导致较低的ID困惑度,尽管有时也会在ID困惑度上呈现U型趋势(图5下)。
这意味着调整学习率有时可以减轻降解,但通常是以牺牲微调性能为代价。
我们将在第3.4.2节探讨,何时调整学习率以最小化ID困惑度能缓解随着预训练延长而出现的C4困惑度降解,何时又不能。
直观解释
来自高斯扰动设置的直觉可以延续到固定学习率的微调上。
更多的预训练tokens将提升基础模型的质量,同时也会导致模型在微调时的降解更严重。
超过某个临界点后,预训练更多tokens会导致最终微调模型的C4困惑度下降,且通常也会影响微调任务的领域内ID困惑度。
图5|固定超参数微调下的灾难性过度训练:当使用固定超参数进行微调时,延长预训练可能会导致C4困惑度(上图)和ID困惑度(微调任务;下图)整体增加。
权衡性能退化和微调收益
然而,学习率是在来自领域内(ID)任务的验证集上进行调优的。
调优过程可能会导致在不同的预训练检查点上获得不同的最优学习率,从而有可能缓解灾难性过拟合。
性能下降既取决于学习率,也与敏感度有关。
因此,如果一个在更多标记上进行预训练的模型在微调时能够采用更小的学习率来获得良好的领域内表现,它就能补偿敏感度的增加。
总体来说,实验表明,逐渐增加的敏感性在两种类型的修改下都会表现出来:非结构化的高斯噪声和结构化的微调。
于是,研究人员推测:逐渐增加的敏感性是普遍现象。
在固定的扰动幅度或固定的微调学习率下,逐渐增加的敏感性导致灾难性过度训练,因为性能的退化最终超过了延长预训练带来的提升。
然而,在实践中,最优学习率是在目标领域内任务上进行调优的,其变化可能导致领域内性能或领域外(预训练)指标的降解。
这突出了在延长预训练中的权衡的重要性,即最优学习率的演变最终决定了这些模型在微调时是否会发生灾难性过度训练。
最优学习率
研究人员调节学习率,以最大化微调后的领域内表现。
图6中绘制了与最优学习率对应的领域内表现和预训练困惑度。
图6.超参数调优后的灾难性过度训练:即使在进行超参数调优后,延长预训练仍可能导致C4困惑度(上图)和ID困惑度(微调任务;下图)的最终降解。
研究结果表明,灾难性过拟合的出现取决于最优学习率的变化方式。
领域内表现和预训练困惑度之间的权衡,可以分为为三种情况,如图7所示:
1. 恒定最优学习率:当预训练计算量T较大时,在不同token预算下采用恒定不变的最优学习率会导致域内(ID)和域外(OOD)性能同时下降(图7左)。
2. 缓慢下降最优学习率:采用缓慢衰减的最优学习率可以提升域内性能,但会导致域外性能下降(图7中)。
3. 快速下降最优学习率:随着预训练计算量的增加,快速衰减的最优学习率能同时提升域内和域外性能(图7右)。
图7:随着预训练tokens数T的变化,最优学习率的规模如何影响模型评估,
使用非最优学习率来缓解降解
在微调时如果使用最优学习率导致灾难性过度训练,采用非最优学习率有时可以缓解降解或延迟拐点的到来。例如,在图7中,调优导致OOD损失最终降解的情况下,选择使用最小的学习率可以延迟拐点的到来。然而,这也会导致较低的ID性能。
超越学习率的正则化
对于高斯扰动和微调设置,我们观察到较大的参数扰动加速并放大了模型性能降解的速度。
在微调设置中,学习率有效地控制了整体参数更新的幅度。
然而,显式的正则化方法来防止大幅度的参数更新,也可能减轻或延迟灾难性过度训练。我们将在第4节探讨一种正则化微调的理论实例。
理论分析
灾难性过度训练这一现象令人惊讶,因为它与普遍的观点相反——
即更长时间的预训练总是能导致更高质量的模型。
因此,灾难性过度训练如何以及何时出现,值得探讨。
研究团队在在简化的预训练和微调二层线性网络的设置中,从理论上分析了灾难性过度训练。
主要发现表明,延长预训练周期最终必然会导致模型出现逐渐增加的敏感性以及灾难性过度训练。尽管适当的正则化可以延缓这些现象的发生,但这通常会以牺牲下游任务性能为代价(参见定理4.4、4.6和4.7)。
对相关理论感兴趣的可以参阅原文。
参考资料:
https://arxiv.org/abs/2503.19206
https://x.com/jacspringer/status/1904960783341023521
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。

游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。