• 一、背景

NVIDIA 开放 GB300 SuperPod 集群参考架构,本文中将介绍GB300 参考架构。此外,这里主要以计算网络互联(后端网络)为主,存储网络,In-Band 网络,Out-of-Band 网络等.

二、GPU

B300

B300基于台积电5nm工艺,采用GB110 Blackwell架构GPU,专为AI计算与高性能计算设计,不支持DirectX图形接口,无法运行消费级游戏。

GB300 是什么?

GB300计算托盘的方块图,该设备配备有两枚GB300超级芯片,每枚芯片均集成了两枚NVIDIA B300 Tensor Core GPU和一枚NVIDIAGrace CPU,并通过900GB/s超低功耗NVLink-C2C互连技术进行连接。

GB300 SuperChip为异构计算单元,采用NVLink-C2C超低功耗互联技术,集成:

• 1颗NVIDIA Grace ARM架构CPU

• 2颗B300 Tensor Core GPU

• 互联带宽:900GB/s

三、CX8 SuperNIC

CX-8 SuperNIC 的 IB 模式支持 1 个 800Gb/s Port 或 2 个 400Gb/s Port、Quantum-X800 InfiniBand。而 Ethernet 模式不支持 800 Gb/s Port,只能用 2 个 400Gb/s Port。

NVIDIA 的下一代 CX9 SuperNIC 会解决 CX8 不支持 800Gbps 以太网 Port 的问题,也就更容易使用第三方的 800Gbps 以太网交换机。

计算托盘集成了四张ConnectX-8网卡,支持机架间计算网络的InfiniBand QUANTUM-X800(800Gbps)连接,以及一块BlueFiled-3网卡,支持带内管理和存储网络的2x400Gbps连接。

四、NVIDIA GB300 NVL72

NVIDIA GB300 NVL72 采用全液冷机架级架构,集成了 72 块 NVIDIA Blackwell Ultra GPU 和 36 块基于 Arm® 的 NVIDIA Grace™ CPU 集成到单一平台。该系统在FP4张量核心FLOPS的密度上是NVIDIA Blackwell GPU的1.5倍,注意力性能也提升了2倍。它专为测试时间扩展推理和人工智能推理任务而设计。由GB300 NVL72加速的AI工厂——利用NVIDIA Quantum-X800 InfiniBand或Spectrum-X™ Ethernet、ConnectX-8 SuperNICs™以及NVIDIA任务控制管理——相比基于NVIDIA Hopper的平台,AI工厂整体产出性能提升了多达50倍。

参数

NVIDIA GB300 NVL72

配置

72 块 NVIDIA Blackwell Ultra GPU,36 块 NVIDIA Grace CPU

NVLink Bandwidth

130 TB/s

Fast Memory

37 TB

GPU Memory | Bandwidth

20 TB | Up to 576 TB/s

CPU Memory | Bandwidth

17 TB LPDDR5X | 14 TB/s

CPU Core Count

2,592 Arm Neoverse V2 cores

FP4 Tensor Core

1440 | 10802 PFLOPS

FP8/FP6 Tensor Core

720 PFLOPS

INT8 Tensor Core

24 POPS

FP16/BF16 Tensor Core

360 PFLOPS

TF32 Tensor Core

180 PFLOPS

FP32

6 PFLOPS

FP64 / FP64 Tensor Core

100 TFLOPS

物理架构

GB300 通常提供整机柜(Rack)的 72 GPU 方案,密度更高:

①单 Rack 功耗达到 120kw,需要液冷。

②18 个 Compute Tray,每个 Tray 包含  2 个 GB300(2 个 CPU、4 个 GPU)。

③9 个 NVSwitch Tray,每个 Tray 包含 2 个 NVSwitch,每个 NVSwitch 72 个 Port,连接所有 GPU。

④GB300 NVL72 提供 72 个 800Gb/s Port(CX-8)。

五、集群架构

    DGX SuperPOD / 1个可扩展单元(Scalable Unit)基础设施

      组件

      技术/型号

      描述

      SU

      NVIDIA DGX GB300 NVL72

      8个NVIDIA DGX GB300 NVL72组合成一个SU

      NVLink网络

      NVIDIA NVLink 5

      NVLink交换机支持同一计算机柜内GPU之间的快速、直接内存访问。

      计算网络

      NVIDIA Q3400 InfiniBand交换机

      每个NVIDIA GB300 NVL72提供四个Quantum X-800连接,用于机架间的GPU通信。

      存储和带内管理

      NVIDIA Spectrum 4 SN5600以太网交换机

      采用64端口800 Gbps以太网交换机,以高性能提供高端口密度。

      InfiniBand管理

      NVIDIA Unified Fabric Manager Appliance, Enterprise Edition (统一结构管理器设备,企业版)

      NVIDIA UFM结合了增强的实时网络遥测技术与AI驱动的网络智能和分析能力,用于管理横向扩展的InfiniBand数据中心。

      NVLink管理

      NVIDIA Network Manager eXperience (NMX-M) (网络管理器体验)

      NVIDIA NMX Manager负责管理和操作NVLink交换机,并提供实时网络遥测以管理所有NVLink基础设施。

      带外管理网络

      NVIDIA SN2201交换机

      48端口千兆以太网交换机,采用铜缆端口以降低复杂性。

      NVLink网络

      每个DGX GB300机架均配备有18个计算托盘和9个NVLink交换机托盘。每个NVLink交换机托盘均配置有2个NVLink交换机芯片,负责实现同一DGXGB300架内所有72个GPU之间的全网状连接。每个B300GPU具备18个NVL5链接,并分别拥有一条专用于与18个交换机芯片进行连接的NVL5链接,总带宽为1.8TB/s的低延迟带宽。

      计算网络架构

      计算架构是一个平衡的、全胖树结构。计算架构采用当前最先进的NVIDIA Q3400 InfiniBand交换机高性能、低延迟网络交换机设计,并支持下一代网络硬件。

      架构讲解

      单SU 架构

      ①8 个 NVL72 Rack = 576 GPU。

      ②8 个 Leaf Switch,每个 Leaf Switch 144 个 800 Gbps Port。

      ③一个 Leaf Switch 连接 4 个 Rack,每个连接Rack 18个800 Gbps Port.占用 4 x 18 = 72 个 800 Gbps Port。

      ④每两个 Leaf Switch一组,构成一个 Rail,每组都会连接 8 个 Rack。

      二层架构满配16个SU

      ①该集群二层架构使用标准的Clos 组网(Q3400 InfiniBand拥有72个上行口数 =72 Spine 台数),最多16个SU在2层架构中聚合一一总共连接9216块GPU。

      GPU总计72*8*16=9216 GPU

      Leaf Switch总计 对应 8 * 16(SU) = 128 个

      每个 Spine Switch 都会连接 128 个 Leaf Switch。

      Clos 组网架构Leaf Switch 上行还剩 72 个 Port,需要72 个 Spine Switch

      存储架构(高速存储)+带内架构

      存储架构为共享存储提供高带宽。它独立于计算架构,以最大化存储和应用性能。为每个DGX GB300计算托盘提供单节点线速400Gbps的传输速率。存储通过RDMAover Converged Ethernet提供,以实现最大性能并最小化CPU开销

      单SU存储架构

      ①每个SU包含2个spine,SN5600交换机。4个leaf,SN5600交换机。这些交换机与BlueField BF3240双端口卡相连,传输速率为400Gbps,以实现最佳性能和冗余性。

      ②支持1:3的阻塞比率,单SU拥有144个BlueField BF3240双端口。4个leaf,SN5600交换机拥有246个800G接口。以1:3的阻塞比率,4个leaf有64个上行接口,拥有192个下行接口。

      ③spine层剩余的接口,接入存储节点和带内管理节点。

      核心按Spine-Leaf 二层架构设计,分层标注设备型号、端口速率、连接关系,同时体现计算 / 存储 / 管理三类 Leaf 的差异化设计,拓扑图核心要素如下:

      顶层:Spine 交换机(最大 24 台)

      中层:三类 Leaf 交换机(计算 Leaf / 存储 Leaf / 管理 Leaf,均为 SN5600D)

      底层:计算节点(DGX GB300,搭载 BlueField BF3240 双端口卡)、持久化存储、管理节点、SN2201 带外交换机

      链路:全 400Gbps,标注阻塞比 / 非阻塞特性、链路数量

      六、总结

      GB300集群基于Blackwell+Grace异构架构,依托NVLink 5与800G InfiniBand构建超大规模AI计算平台,单SU可支撑576GPU并行计算,满配16SU支持9216GPU集群,相比Hopper平台AI推理性能提升50倍,是下一代智算中心标准方案。

      Logo

      AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

      更多推荐