英伟达 GB200 NVL72 服务器在混合专家（MoE）模型上实现里程碑式突破

2025-12-04 18:13:08 | 棠糖 | 871

12月4日，科技媒体 Wccftech 今日报道，英伟达（NVIDIA）新一代 GB200 NVL72 AI 服务器在处理高效的混合专家模型（MoE）架构时，取得了重大性能突破。测试结果显示，GB200 NVL72 在运行 Kimi K2 Thinking、Deepseek-R1-0528 和 Mistral Large 3 等主流 MoE 开源大语言模型时，相比上一代 Hopper HGX 200 平台，性能实现了惊人的 10 倍提升。

混合专家模型（MoE）是当前 AI 大模型架构的前沿趋势。它通过“择优而用”的方式，仅激活模型中与特定任务最相关的一小部分“专家”（参数子集）来解决问题。这种设计极大地降低了计算成本，并显著提高了处理速度，被业界视为解决模型扩展瓶颈的关键。自 2025 年初以来，几乎所有领先的前沿大模型都已采用了 MoE 设计。

英伟达此次突破，得益于其独特的“协同设计”（co-design）策略，成功解决了 MoE 模型扩展时遇到的通信和计算瓶颈。该策略整合了多项尖端技术：大规模硬件集成： GB200 NVL72 服务器拥有 72 块芯片配置和高达 30TB 的快速共享内存。高速互联：采用第五代 NVLink 高速互联技术，以非线性速率提升通信量。核心优化：结合第二代 Transformer 引擎。

通过这些技术的协同工作，系统能够高效地将 Token 批次拆分并分配到各个 GPU 进行并行计算，将专家并行计算（expert parallelism）提升至全新水平，最终实现了性能的巨大飞跃。

除了强大的硬件基础，英伟达还实施了多项全栈软件优化措施来增强 MoE 模型的推理性能。例如，NVIDIA Dynamo 框架引入了任务解耦服务，将预填充（prefill）和解码（decode）任务分配给不同的 GPU，允许解码阶段以大规模专家并行方式运行。此外，系统还采用了先进的 NVFP4 数据格式，在保证计算精度的同时，进一步提高了性能和效率，确保了整个 AI 计算流程的稳定和高效。

此次 GB200 NVL72 在 MoE 模型上的性能突破，不仅成功克服了困扰业界已久的扩展计算瓶颈，也进一步巩固了英伟达在 AI 服务器市场的绝对领先地位，为未来更大规模、更复杂的具身智能和通用人工智能的发展奠定了坚实的基础。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。