英伟达 GB200 NVL72 服务器在混合专家(MoE)模型上实现里程碑式突破
12月4日,科技媒体 Wccftech 今日报道,英伟达(NVIDIA)新一代 GB200 NVL72 AI 服务器在处理高效的混合专家模型(MoE)架构时,取得了重大性能突破。测试结果显示,GB200 NVL72 在运行 Kimi K2 Thinking、Deepseek-R1-0528 和 Mistral Large 3 等主流 MoE 开源大语言模型时,相比上一代 Hopper HGX 200 平台,性能实现了惊人的 10 倍提升。
混合专家模型(MoE)是当前 AI 大模型架构的前沿趋势。它通过“择优而用”的方式,仅激活模型中与特定任务最相关的一小部分“专家”(参数子集)来解决问题。这种设计极大地降低了计算成本,并显著提高了处理速度,被业界视为解决模型扩展瓶颈的关键。自 2025 年初以来,几乎所有领先的前沿大模型都已采用了 MoE 设计。
英伟达此次突破,得益于其独特的“协同设计”(co-design)策略,成功解决了 MoE 模型扩展时遇到的通信和计算瓶颈。该策略整合了多项尖端技术:大规模硬件集成: GB200 NVL72 服务器拥有 72 块芯片配置和高达 30TB 的快速共享内存。高速互联: 采用第五代 NVLink 高速互联技术,以非线性速率提升通信量。核心优化: 结合第二代 Transformer 引擎。
通过这些技术的协同工作,系统能够高效地将 Token 批次拆分并分配到各个 GPU 进行并行计算,将专家并行计算(expert parallelism)提升至全新水平,最终实现了性能的巨大飞跃。
除了强大的硬件基础,英伟达还实施了多项全栈软件优化措施来增强 MoE 模型的推理性能。例如,NVIDIA Dynamo 框架引入了任务解耦服务,将预填充(prefill)和解码(decode)任务分配给不同的 GPU,允许解码阶段以大规模专家并行方式运行。此外,系统还采用了先进的 NVFP4 数据格式,在保证计算精度的同时,进一步提高了性能和效率,确保了整个 AI 计算流程的稳定和高效。
此次 GB200 NVL72 在 MoE 模型上的性能突破,不仅成功克服了困扰业界已久的扩展计算瓶颈,也进一步巩固了英伟达在 AI 服务器市场的绝对领先地位,为未来更大规模、更复杂的具身智能和通用人工智能的发展奠定了坚实的基础。