挑战英伟达:首个纯 AMD 硬件训练的 AI 大模型 ZAYA1 登场
11 月 25 日消息,AMD 公司昨日(11 月 24 日)发布公告,宣布携手 IBM 和 AI 初创公司 Zyphra,历时 1 年多时间,成功使用 AMD 硬件训练出首个大型混合专家(MoE)基础模型 ZAYA1。
援引博文介绍,该模型是首个完全基于 AMD 硬件生态系统构建的大型混合专家(MoE)模型,其训练过程完全在 IBM 云上进行,使用了 AMD Instinct MI300X GPU、Pensando 网络技术和 ROCm 软件平台,其详细技术报告已在 arXiv 上发布。

三方为训练 ZAYA1 模型,共同搭建了一个大规模、高可靠性的专用训练集群。该集群由 128 个节点组成,每个节点配备 8 块 AMD MI300X GPU,总计 1024 块 GPU,通过 AMD InfinityFabric 高速互联。

整个集群的实际训练性能超过 750 PFLOPs(每秒 75 亿亿次浮点运算),同时 Zyphra 为确保了训练过程的稳定与高效,还开发了一套针对 AMD 平台高度优化的训练框架。
ZAYA1 基础模型在预训练阶段使用了高达 14 万亿(14T)tokens 的数据,并采用了分阶段的课程学习策略:从初期的非结构化网络数据,逐步过渡到结构更清晰、信息密度更高的数学、代码和推理数据。

基准测试结果显示,ZAYA1 的综合性能与业界领先的 Qwen3 系列模型不相上下,同时优于 SmolLM3、Phi4 等主流开源模型。特别是在未经特定指令微调的情况下,其推理版本在数学和 STEM 等复杂推理任务上已接近 Qwen3 的专业版本。


ZAYA1 的优异性能还得益于其在模型架构上的两项关键创新。首先,它采用了新颖的 CCA 注意力机制(Compressive Convolutional Attention),通过在注意力模块内部引入卷积操作,显著降低了计算量和显存占用。
其次,该模型改进了混合专家模型(MoE)中常用的线性路由(linear router),设计了新的路由结构,提升了模型的表达能力和专家模块的专业化程度。这些创新共同解决了 Transformer 架构中的计算与内存瓶颈。
Zyphra 表示,ZAYA1 的成功发布只是第一步。目前公布的仅为基础模型预览,未来团队将发布经过完整后训练(post-trained)的模型版本,并提供更详尽的性能评测和训练经验分享。

声明:本文转载自IT 之家,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。
游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。
AI 中文社