AMD 硬件生态圈重大突破:携手 IBM、Zyphra 成功训练出首个 MoE 基础模型 ZAYA1

2025-11-25 16:34:54   |   唐薇   |   1637

11 月 25 日,AMD 公司昨日(11 月 24 日)发布重磅公告,宣布联合科技巨头 IBM 和 AI 初创公司 Zyphra,历时一年多时间,成功地使用 AMD 硬件生态系统训练出了首个大型混合专家(MoE)基础模型 ZAYA1。这一成就标志着 AMD 在高性能 AI 模型训练领域取得了里程碑式的突破。

ZAYA1 模型最引人注目的特点是其完全基于 AMD 硬件生态系统构建。整个训练过程在 IBM 云平台上完成,核心硬件配置极具规模:1024 块 AMD Instinct MI300X GPU。每个节点配备 8 块 GPU,通过 AMD InfinityFabric 高速互联,总计 128 个节点。训练集群还采用了 Pensando 网络技术和 ROCm 软件平台。

三方共同搭建的这一专用训练集群,实际训练性能超过了惊人的 750 PFLOPs(每秒 75 亿亿次浮点运算)。为了确保训练过程的稳定与高效,初创公司 Zyphra 专门开发了一套针对 AMD 平台高度优化的训练框架。ZAYA1 基础模型在预训练阶段使用了高达 14 万亿(14T)tokens 的海量数据,并采用了从非结构化网络数据到高密度数学、代码数据的分阶段课程学习策略。

基准测试结果显示,ZAYA1 的综合性能表现与业界领先的 Qwen3 系列模型不相上下,同时显著优于 SmolLM3、Phi4 等主流开源模型。尤为突出的是,即使在未经特定指令微调的情况下,ZAYA1 的推理版本在数学和 STEM 等复杂推理任务上,性能已接近 Qwen3 的专业版本,展现出强大的泛化和推理能力。

ZAYA1 的优异表现还得益于其在模型架构上的两项关键创新,成功解决了传统 Transformer 架构中的计算与内存瓶颈:CCA 注意力机制: 采用了新颖的压缩卷积注意力(Compressive Convolutional Attention),通过在注意力模块内部引入卷积操作,显著降低了计算量和显存占用。改进型路由结构: 改进了混合专家模型(MoE)中常用的线性路由,设计了新的路由结构,进一步提升了模型的表达能力和专家模块的专业化程度。

Zyphra 表示,目前公布的仅为 ZAYA1 的基础模型预览。未来团队将发布经过完整后训练(post-trained)的模型版本,并提供更详尽的性能评测和训练经验分享,致力于将这一成果推向更广泛的应用。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

AMD 硬件生态圈重大突破:携手 IBM、Zyphra 成功训练出首个 MoE 基础模型 ZAYA1

2025-11-25 16:34:54 浏览量: 1637 作者: 唐薇

11 月 25 日,AMD 公司昨日(11 月 24 日)发布重磅公告,宣布联合科技巨头 IBM 和 AI 初创公司 Zyphra,历时一年多时间,成功地使用 AMD 硬件生态系统训练出了首个大型混合专家(MoE)基础模型 ZAYA1。这一成就标志着 AMD 在高性能 AI 模型训练领域取得了里程碑式的突破。

ZAYA1 模型最引人注目的特点是其完全基于 AMD 硬件生态系统构建。整个训练过程在 IBM 云平台上完成,核心硬件配置极具规模:1024 块 AMD Instinct MI300X GPU。每个节点配备 8 块 GPU,通过 AMD InfinityFabric 高速互联,总计 128 个节点。训练集群还采用了 Pensando 网络技术和 ROCm 软件平台。

三方共同搭建的这一专用训练集群,实际训练性能超过了惊人的 750 PFLOPs(每秒 75 亿亿次浮点运算)。为了确保训练过程的稳定与高效,初创公司 Zyphra 专门开发了一套针对 AMD 平台高度优化的训练框架。ZAYA1 基础模型在预训练阶段使用了高达 14 万亿(14T)tokens 的海量数据,并采用了从非结构化网络数据到高密度数学、代码数据的分阶段课程学习策略。

基准测试结果显示,ZAYA1 的综合性能表现与业界领先的 Qwen3 系列模型不相上下,同时显著优于 SmolLM3、Phi4 等主流开源模型。尤为突出的是,即使在未经特定指令微调的情况下,ZAYA1 的推理版本在数学和 STEM 等复杂推理任务上,性能已接近 Qwen3 的专业版本,展现出强大的泛化和推理能力。

ZAYA1 的优异表现还得益于其在模型架构上的两项关键创新,成功解决了传统 Transformer 架构中的计算与内存瓶颈:CCA 注意力机制: 采用了新颖的压缩卷积注意力(Compressive Convolutional Attention),通过在注意力模块内部引入卷积操作,显著降低了计算量和显存占用。改进型路由结构: 改进了混合专家模型(MoE)中常用的线性路由,设计了新的路由结构,进一步提升了模型的表达能力和专家模块的专业化程度。

Zyphra 表示,目前公布的仅为 ZAYA1 的基础模型预览。未来团队将发布经过完整后训练(post-trained)的模型版本,并提供更详尽的性能评测和训练经验分享,致力于将这一成果推向更广泛的应用。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号