大模型微调非得依赖人类数据吗?DeepMind:用带反馈的自训练更好
浏览402次
点赞0次
收藏0次
面对当前微调大模型主要依赖人类生成数据的普遍做法,谷歌 DeepMind 探索出了一种减少这种依赖的更高效方法。

生成(E-step):语言模型为每个输入上下文生成多个输出样本,然后使用二元奖励过滤这些样本以收集训练数据集。 改进(M-step):原始语言模型在来自前一个 E-step 的训练数据集上进行监督微调,然后在下一个 E-step 中使用。



中采样输出序列来生成数据集
。在这里,输入是从原始数据集
中重新采样的。然后使用二元奖励函数 𝑟(𝒙, 𝒚) 对
中的输出序列进行评分。
来微调策略 𝑝𝜃。不同于 Gulcehre 的研究,他们微调基本预训练语言模型,以最大限度地减少特定于任务的过度拟合并最大限度地减少与基本模型的偏差。为了进行微调,该研究最小化奖励加权负对数似然损失
。一旦策略得到改进,就可以再次创建质量更好样本的新数据集。与人类生成的数据进行微调相比,ReST^𝐸𝑀的效果如何? 需要多少次迭代才能获得最佳性能?ReST^𝐸𝑀多长时间会导致训练集过度拟合? ReST^𝐸𝑀如何影响 pass@k 和多数投票表现? 如果用户在特定任务上使用模型生成的数据进行微调,是否会迁移到其他任务上?在广泛的任务中评估本文的微调模型时,与基本模型相比,性能是否会下降? 大约需要多少输入数据才能从 ReST^𝐸𝑀 获得大部分性能提升?ReST^𝐸𝑀的一次迭代是否足够?




声明:本文转载自机器之心,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。
AI 中文社