一、硬件NVIDIA DGX AI算力主机使用方法

硬件NVIDIA DGX AI算力主机包含多个型号:DGX B200/DGX H200/DGX Spark/DGX Station/DGX B300  以下主要以DGX B300为例介绍:

核心配置以及作用

以Blackwell Ultra架构为核心,重新定义企业级AI算力标准。主要用于AI推理,训练,AI部署等。

规格项

关键参数

GPU 8×NVIDIA Blackwell Ultra SXM
CPU Intel® Xeon® 6776P
总显存

2.1 TB

算力 FP4 Tensor Core:144 PFLOPS/108 PFLOPS*
FP8 Tensor Core:72 PFLOPS**
NVLink

2组交换系统,总带宽14.4 TB/s

高速网络 8×OSFP(ConnectX‑8),最高800Gb/s
2×双端口BlueField‑3 DPU,最高400Gb/s
存储 系统盘:2×1.9TB NVMe M.2
数据盘:8×3.84TB NVMe E1.S
功耗/机架 ~14 kW / 10U
服务 三年商务标准软硬件支持

主要使用方法:通过SSH远程登陆到服务器上(命令行操作)

相关内置软件的使用方法

DGX B300搭载完整企业级AI软件栈,主要介绍如下:

1. NVIDIA AI Enterprise:优化AI工具链,覆盖训练、推理、监控全流程

(付费订阅,主要包括pyTorch,TensorFlow、CUDA,cuDNN等)

2. NVIDIA Mission Control:基于Run:ai技术,AI数据中心统一编排运维

(主要组件包括:Base Command Manager(BCM): 集群管理、节点/GPU注册、部署等;

                             Run: ai:GPU调度、队列、资源隔离,算力分配等)

3. DGX OS:专属操作系统,兼容RHEL/Rocky/Ubuntu主流发行版

4. 远程管理:板载1GbE RJ45 BMC,远程运维、故障排查更便捷

二、工业应用场景

智能制造:工业质检、预测性维护、数字孪生,提升生产效率

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐