Meta探索大模型记忆层,扩展至1280亿个参数,优于MoE
浏览345次
点赞0次
收藏0次
预训练语言模型通常在其参数中编码大量信息,并且随着规模的增加,它们可以更准确地回忆和使用这些信息。对于主要将信息编码为线性矩阵变换权重的密集深度神经网络来说,参数大小的扩展直接与计算和能量需求的增加相关。语言模型需要学习的一个重要信息子集是简单关联。虽然前馈网络原则上(给定足够的规模)可以学习任何函数,但使用联想记忆(associative memory)会更高效。
记忆层(memory layers)使用可训练的键值查找机制向模型添加额外的参数,而不会增加 FLOP。从概念上讲,稀疏激活的记忆层补充了计算量大的密集前馈层,提供了廉价地存储和检索信息的专用容量。
最近,Meta 的一项新研究使记忆层超越了概念验证,证明了它们在大型语言模型(LLM)扩展中的实用性。

论文标题:Memory Layers at Scale 论文地址:https://arxiv.org/pdf/2412.09764 项目地址:https://github.com/facebookresearch/memory
,一组键
,以及值
。输出是值的软组合,根据 q 和相应键之间的相似性进行加权。首先,记忆层中的键和值是可训练参数,而不是激活参数; 其次,记忆层在键和值的数量方面通常具有更大的规模,因此稀疏查询和更新是必需的。

,输出
。






声明:本文转载自机器之心,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。
AI 中文社