GB300集群互联

liujingyun_

657人浏览 · 2026-03-13 18:03:24

liujingyun_ · 2026-03-13 18:03:24 发布

一、背景

NVIDIA 开放 GB300 SuperPod 集群参考架构，本文中将介绍GB300 参考架构。此外，这里主要以计算网络互联（后端网络）为主，存储网络，In-Band 网络，Out-of-Band 网络等.

二、GPU

B300

B300基于台积电5nm工艺，采用GB110 Blackwell架构GPU，专为AI计算与高性能计算设计，不支持DirectX图形接口，无法运行消费级游戏。

GB300 是什么？

GB300计算托盘的方块图，该设备配备有两枚GB300超级芯片，每枚芯片均集成了两枚NVIDIA B300 Tensor Core GPU和一枚NVIDIAGrace CPU，并通过900GB/s超低功耗NVLink-C2C互连技术进行连接。

GB300 SuperChip为异构计算单元，采用NVLink-C2C超低功耗互联技术，集成：

• 1颗NVIDIA Grace ARM架构CPU

• 2颗B300 Tensor Core GPU

• 互联带宽：900GB/s

三、CX8 SuperNIC

CX-8 SuperNIC 的 IB 模式支持 1 个 800Gb/s Port 或 2 个 400Gb/s Port、Quantum-X800 InfiniBand。而 Ethernet 模式不支持 800 Gb/s Port，只能用 2 个 400Gb/s Port。

NVIDIA 的下一代 CX9 SuperNIC 会解决 CX8 不支持 800Gbps 以太网 Port 的问题，也就更容易使用第三方的 800Gbps 以太网交换机。

计算托盘集成了四张ConnectX-8网卡，支持机架间计算网络的InfiniBand QUANTUM-X800(800Gbps)连接，以及一块BlueFiled-3网卡，支持带内管理和存储网络的2x400Gbps连接。

四、NVIDIA GB300 NVL72

NVIDIA GB300 NVL72 采用全液冷机架级架构，集成了 72 块 NVIDIA Blackwell Ultra GPU 和 36 块基于 Arm® 的 NVIDIA Grace™ CPU 集成到单一平台。该系统在FP4张量核心FLOPS的密度上是NVIDIA Blackwell GPU的1.5倍，注意力性能也提升了2倍。它专为测试时间扩展推理和人工智能推理任务而设计。由GB300 NVL72加速的AI工厂——利用NVIDIA Quantum-X800 InfiniBand或Spectrum-X™ Ethernet、ConnectX-8 SuperNICs™以及NVIDIA任务控制管理——相比基于NVIDIA Hopper的平台，AI工厂整体产出性能提升了多达50倍。

参数

NVIDIA GB300 NVL72
配置	72 块 NVIDIA Blackwell Ultra GPU，36 块 NVIDIA Grace CPU
NVLink Bandwidth	130 TB/s
Fast Memory	37 TB
GPU Memory \| Bandwidth	20 TB \| Up to 576 TB/s
CPU Memory \| Bandwidth	17 TB LPDDR5X \| 14 TB/s
CPU Core Count	2,592 Arm Neoverse V2 cores
FP4 Tensor Core	1440 \| 10802 PFLOPS
FP8/FP6 Tensor Core	720 PFLOPS
INT8 Tensor Core	24 POPS
FP16/BF16 Tensor Core	360 PFLOPS
TF32 Tensor Core	180 PFLOPS
FP32	6 PFLOPS
FP64 / FP64 Tensor Core	100 TFLOPS

物理架构

GB300 通常提供整机柜（Rack）的 72 GPU 方案，密度更高：

①单 Rack 功耗达到 120kw，需要液冷。

②18 个 Compute Tray，每个 Tray 包含 2 个 GB300（2 个 CPU、4 个 GPU）。

③9 个 NVSwitch Tray，每个 Tray 包含 2 个 NVSwitch，每个 NVSwitch 72 个 Port，连接所有 GPU。

④GB300 NVL72 提供 72 个 800Gb/s Port（CX-8）。

五、集群架构

DGX SuperPOD / 1个可扩展单元（Scalable Unit）基础设施

组件	技术/型号	描述
SU	NVIDIA DGX GB300 NVL72	8个NVIDIA DGX GB300 NVL72组合成一个SU
NVLink网络	NVIDIA NVLink 5	NVLink交换机支持同一计算机柜内GPU之间的快速、直接内存访问。
计算网络	NVIDIA Q3400 InfiniBand交换机	每个NVIDIA GB300 NVL72提供四个Quantum X-800连接，用于机架间的GPU通信。
存储和带内管理	NVIDIA Spectrum 4 SN5600以太网交换机	采用64端口800 Gbps以太网交换机，以高性能提供高端口密度。
InfiniBand管理	NVIDIA Unified Fabric Manager Appliance, Enterprise Edition (统一结构管理器设备，企业版)	NVIDIA UFM结合了增强的实时网络遥测技术与AI驱动的网络智能和分析能力，用于管理横向扩展的InfiniBand数据中心。
NVLink管理	NVIDIA Network Manager eXperience (NMX-M) (网络管理器体验)	NVIDIA NMX Manager负责管理和操作NVLink交换机，并提供实时网络遥测以管理所有NVLink基础设施。
带外管理网络	NVIDIA SN2201交换机	48端口千兆以太网交换机，采用铜缆端口以降低复杂性。

NVLink网络

每个DGX GB300机架均配备有18个计算托盘和9个NVLink交换机托盘。每个NVLink交换机托盘均配置有2个NVLink交换机芯片，负责实现同一DGXGB300架内所有72个GPU之间的全网状连接。每个B300GPU具备18个NVL5链接，并分别拥有一条专用于与18个交换机芯片进行连接的NVL5链接，总带宽为1.8TB/s的低延迟带宽。

计算网络架构

计算架构是一个平衡的、全胖树结构。计算架构采用当前最先进的NVIDIA Q3400 InfiniBand交换机高性能、低延迟网络交换机设计，并支持下一代网络硬件。

架构讲解

单SU 架构

①8 个 NVL72 Rack = 576 GPU。

②8 个 Leaf Switch，每个 Leaf Switch 144 个 800 Gbps Port。

③一个 Leaf Switch 连接 4 个 Rack，每个连接Rack 18个800 Gbps Port.占用 4 x 18 = 72 个 800 Gbps Port。

④每两个 Leaf Switch一组，构成一个 Rail，每组都会连接 8 个 Rack。

二层架构满配16个SU

①该集群二层架构使用标准的Clos 组网（Q3400 InfiniBand拥有72个上行口数 =72 Spine 台数），最多16个SU在2层架构中聚合一一总共连接9216块GPU。

GPU总计72*8*16=9216 GPU

Leaf Switch总计对应 8 * 16(SU) = 128 个

每个 Spine Switch 都会连接 128 个 Leaf Switch。

Clos 组网架构Leaf Switch 上行还剩 72 个 Port，需要72 个 Spine Switch

存储架构(高速存储)+带内架构

存储架构为共享存储提供高带宽。它独立于计算架构，以最大化存储和应用性能。为每个DGX GB300计算托盘提供单节点线速400Gbps的传输速率。存储通过RDMAover Converged Ethernet提供，以实现最大性能并最小化CPU开销

单SU存储架构

①每个SU包含2个spine，SN5600交换机。4个leaf，SN5600交换机。这些交换机与BlueField BF3240双端口卡相连，传输速率为400Gbps，以实现最佳性能和冗余性。

②支持1:3的阻塞比率，单SU拥有144个BlueField BF3240双端口。4个leaf，SN5600交换机拥有246个800G接口。以1:3的阻塞比率，4个leaf有64个上行接口，拥有192个下行接口。

③spine层剩余的接口，接入存储节点和带内管理节点。

核心按Spine-Leaf 二层架构设计，分层标注设备型号、端口速率、连接关系，同时体现计算 / 存储 / 管理三类 Leaf 的差异化设计，拓扑图核心要素如下：

顶层：Spine 交换机（最大 24 台）

中层：三类 Leaf 交换机（计算 Leaf / 存储 Leaf / 管理 Leaf，均为 SN5600D）

底层：计算节点（DGX GB300，搭载 BlueField BF3240 双端口卡）、持久化存储、管理节点、SN2201 带外交换机

链路：全 400Gbps，标注阻塞比 / 非阻塞特性、链路数量

六、总结

GB300集群基于Blackwell+Grace异构架构，依托NVLink 5与800G InfiniBand构建超大规模AI计算平台，单SU可支撑576GPU并行计算，满配16SU支持9216GPU集群，相比Hopper平台AI推理性能提升50倍，是下一代智算中心标准方案。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

（IEEE顶刊复现）改进的中点电位平衡策略：基于最优零序电压注入法的二极管钳位型NPC三电平拓扑中点电位平衡仿真

本文针对二极管钳位型NPC三电平拓扑中存在的中点电位不平衡问题，提出一种基于最优零序电压注入法的改进控制策略。通过理论分析建立中点电位波动模型，推导出最优零序电压的解析计算方法，并采用载波脉宽调制（CPWM）实现控制。仿真结果表明，在0.3s时注入最优零序电压后，中点电位波动显著降低，系统动态性能得到显著提升。研究为三电平逆变器的工程应用提供了理论支持与仿真验证。

AtomGit开源社区

如何用衍构语言加强AI的编程能力

当前AI编程助手（如GitHub Copilot、ChatGPT）主要基于自然语言理解和代码模式匹配生成代码，存在"语法正确但语义偏离"的系统性缺陷。本文提出**衍构语言（Yanstruct）**作为AI编程的**结构化思维中介层**，通过六要素交互模型和分层归因机制，使AI从"模式匹配"升级为"因果推理"，从"语法生成"升级为"语义验证"。