英伟达 GB200 NVL72 服务器在混合专家(MoE)模型上实现里程碑式突破

2025-12-04 18:13:08   |   棠糖   |   868

12月4日,科技媒体 Wccftech 今日报道,英伟达(NVIDIA)新一代 GB200 NVL72 AI 服务器在处理高效的混合专家模型(MoE)架构时,取得了重大性能突破。测试结果显示,GB200 NVL72 在运行 Kimi K2 Thinking、Deepseek-R1-0528 和 Mistral Large 3 等主流 MoE 开源大语言模型时,相比上一代 Hopper HGX 200 平台,性能实现了惊人的 10 倍提升。

混合专家模型(MoE)是当前 AI 大模型架构的前沿趋势。它通过“择优而用”的方式,仅激活模型中与特定任务最相关的一小部分“专家”(参数子集)来解决问题。这种设计极大地降低了计算成本,并显著提高了处理速度,被业界视为解决模型扩展瓶颈的关键。自 2025 年初以来,几乎所有领先的前沿大模型都已采用了 MoE 设计。

英伟达此次突破,得益于其独特的“协同设计”(co-design)策略,成功解决了 MoE 模型扩展时遇到的通信和计算瓶颈。该策略整合了多项尖端技术:大规模硬件集成: GB200 NVL72 服务器拥有 72 块芯片配置和高达 30TB 的快速共享内存。高速互联: 采用第五代 NVLink 高速互联技术,以非线性速率提升通信量。核心优化: 结合第二代 Transformer 引擎。

通过这些技术的协同工作,系统能够高效地将 Token 批次拆分并分配到各个 GPU 进行并行计算,将专家并行计算(expert parallelism)提升至全新水平,最终实现了性能的巨大飞跃。

除了强大的硬件基础,英伟达还实施了多项全栈软件优化措施来增强 MoE 模型的推理性能。例如,NVIDIA Dynamo 框架引入了任务解耦服务,将预填充(prefill)和解码(decode)任务分配给不同的 GPU,允许解码阶段以大规模专家并行方式运行。此外,系统还采用了先进的 NVFP4 数据格式,在保证计算精度的同时,进一步提高了性能和效率,确保了整个 AI 计算流程的稳定和高效。

此次 GB200 NVL72 在 MoE 模型上的性能突破,不仅成功克服了困扰业界已久的扩展计算瓶颈,也进一步巩固了英伟达在 AI 服务器市场的绝对领先地位,为未来更大规模、更复杂的具身智能和通用人工智能的发展奠定了坚实的基础。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

英伟达 GB200 NVL72 服务器在混合专家(MoE)模型上实现里程碑式突破

2025-12-04 18:13:08 浏览量: 868 作者: 棠糖

12月4日,科技媒体 Wccftech 今日报道,英伟达(NVIDIA)新一代 GB200 NVL72 AI 服务器在处理高效的混合专家模型(MoE)架构时,取得了重大性能突破。测试结果显示,GB200 NVL72 在运行 Kimi K2 Thinking、Deepseek-R1-0528 和 Mistral Large 3 等主流 MoE 开源大语言模型时,相比上一代 Hopper HGX 200 平台,性能实现了惊人的 10 倍提升。

混合专家模型(MoE)是当前 AI 大模型架构的前沿趋势。它通过“择优而用”的方式,仅激活模型中与特定任务最相关的一小部分“专家”(参数子集)来解决问题。这种设计极大地降低了计算成本,并显著提高了处理速度,被业界视为解决模型扩展瓶颈的关键。自 2025 年初以来,几乎所有领先的前沿大模型都已采用了 MoE 设计。

英伟达此次突破,得益于其独特的“协同设计”(co-design)策略,成功解决了 MoE 模型扩展时遇到的通信和计算瓶颈。该策略整合了多项尖端技术:大规模硬件集成: GB200 NVL72 服务器拥有 72 块芯片配置和高达 30TB 的快速共享内存。高速互联: 采用第五代 NVLink 高速互联技术,以非线性速率提升通信量。核心优化: 结合第二代 Transformer 引擎。

通过这些技术的协同工作,系统能够高效地将 Token 批次拆分并分配到各个 GPU 进行并行计算,将专家并行计算(expert parallelism)提升至全新水平,最终实现了性能的巨大飞跃。

除了强大的硬件基础,英伟达还实施了多项全栈软件优化措施来增强 MoE 模型的推理性能。例如,NVIDIA Dynamo 框架引入了任务解耦服务,将预填充(prefill)和解码(decode)任务分配给不同的 GPU,允许解码阶段以大规模专家并行方式运行。此外,系统还采用了先进的 NVFP4 数据格式,在保证计算精度的同时,进一步提高了性能和效率,确保了整个 AI 计算流程的稳定和高效。

此次 GB200 NVL72 在 MoE 模型上的性能突破,不仅成功克服了困扰业界已久的扩展计算瓶颈,也进一步巩固了英伟达在 AI 服务器市场的绝对领先地位,为未来更大规模、更复杂的具身智能和通用人工智能的发展奠定了坚实的基础。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号