目录

  1. 引言
  2. GPU 架构演进史
  3. 核心计算单元解析
  4. 显存系统详解
  5. 功耗与散热设计
  6. 实战:GPU 选型指南
  7. 附录:主流 GPU 规格对比表

引言

在 GPU 服务器测试的整个知识体系中,硬件参数是最基础也是最关键的一环。无论你是要搭建 AI 训练集群、部署推理服务,还是进行性能基准测试,对 GPU 硬件参数的深入理解都是必不可少的前提。

然而,在实际工作中,我发现很多工程师在面对 GPU 选型时常常感到困惑:

  • H100 和 A100 到底差在哪里? 除了价格,如何量化它们的性能差异?
  • 显存带宽为什么比容量更重要? 什么场景下会成为瓶颈?
  • TDP 功耗标称值为什么实际测试中对不上? 如何合理规划电力?
  • PCIe 4.0 和 PCIe 5.0 对性能影响有多大? 什么时候需要关注这个参数?

这些问题背后,都涉及到对 GPU 硬件参数的系统性理解。

本文目标

本文将带你深入理解 GPU 硬件参数的本质,内容包括:

  1. 架构演进 - 从 Ampere 到 Blackwell,理解每代架构的核心改进
  2. 计算单元 - CUDA Core、Tensor Core、RT Core 的实际意义
  3. 显存系统 - 容量、带宽、类型的选择策略
  4. 功耗散热 - TDP 解读、散热方案、电力规划
  5. 选型指南 - 不同场景下的 GPU 选择建议

阅读建议

  • 初学者:建议完整阅读,建立系统性认知
  • 有经验者:可跳读至第 6 节选型指南和第 7 节对比表
  • 测试工程师:重点关注第 3、4 节,理解性能瓶颈来源

GPU 架构演进史

理解 GPU 参数,首先要理解架构演进。NVIDIA 的 GPU 架构以科学家命名,每代架构都代表了计算能力的重大飞跃。

架构代际概览

架构代号 发布年份 代表产品 工艺制程 关键特性
Volta 2017 V100 12nm FFN 首次引入 Tensor Core
Ampere 2020 A100/A800 7nm 结构化稀疏、TF32
Hopper 2022 H100/H800 4N (TSMC 5nm 定制) Transformer Engine、FP8
Blackwell 2024 B100/B200/GB200 4NP (TSMC 4nm 定制) 第二代 Transformer Engine、FP4

Ampere 架构(2020)- AI 计算的里程碑

Ampere 是 NVIDIA 数据中心 GPU 的重要转折点,代表产品 A100 至今仍在广泛使用。

核心创新

1. 第三代 Tensor Core

Ampere 的 Tensor Core 支持多种精度:

  • FP64 - 双精度,科学计算
  • FP32 - 单精度,通用计算
  • TF32 - Ampere 新增,19 位有效数字,性能是 FP32 的 20 倍
  • FP16 - 半精度,传统 AI 训练
  • BF16 - Brain Floating Point,动态范围更大
  • INT8 - 8 位整数,推理加速

TF32 的引入是革命性的。它让 AI 训练可以在几乎不损失精度的情况下,获得接近 FP16 的速度,而且不需要修改代码——只要使用 Ampere GPU,TF32 自动生效。

2. 结构化稀疏(Structured Sparsity)

Ampere 支持 2:4 结构化稀疏,即每 4 个权重中可以稀疏化 2 个。在稀疏模式下,Tensor Core 性能可以翻倍。

传统密集计算:[w1, w2, w3, w4] → 4 次乘法
2:4 稀疏计算:[w1, 0, w3, 0] → 2 次乘法(性能×2)

3. 多实例 GPU(MIG)

A100 首次支持 MIG 技术,可以将一块 A100 划分为最多 7 个独立的 GPU 实例,每个实例有自己独立的显存、缓存和计算资源。这对于多租户云服务和小型推理任务非常有用。

1× A100 80GB 可以划分为:
- 7× 10GB 实例
- 6× 12GB 实例  
- 4× 20GB 实例
- 3× 24GB 实例
- 2× 40GB 实例
- 1× 80GB 实例
A100 关键参数
参数 A100 40GB A100 80GB
CUDA Cores 6912 6912
Tensor Cores 432 (第三代) 432 (第三代)
显存容量 40GB HBM2e 80GB HBM2e
显存带宽 1555 GB/s 2039 GB/s
TDP 250W 300W
FP32 算力 19.5 TFLOPS 19.5 TFLOPS
TF32 算力 156 TFLOPS (稀疏 312 TFLOPS) 156 TFLOPS (稀疏 312 TFLOPS)
FP16 算力 312 TFLOPS (稀疏 624 TFLOPS) 312 TFLOPS (稀疏 624 TFLOPS)
INT8 算力 624 TOPS (稀疏 1248 TOPS) 624 TOPS (稀疏 1248 TOPS)

Hopper 架构(2022)- 为大模型而生

Hopper 架构是专为 Transformer 和大语言模型设计的架构,H100 是其代表产品。

核心创新

1. Transformer Engine

这是 Hopper 最核心的创新。Transformer Engine 可以自动混合使用 FP8 和 FP16 精度进行训练,在保证模型收敛的前提下大幅提升训练速度。

# 使用 Transformer Engine 的代码示例
from transformer_engine import pytorch as te

# 传统方式
linear = torch.nn.Linear(512, 512)

# 使用 Transformer Engine
linear = te.Linear(512, 512)  # 自动 FP8/FP16 混合精度

FP8 相比 FP16:

  • 数据量减少 50%
  • 计算速度提升 2 倍
  • 显存占用减少 50%

2. 第四代 Tensor Core

Hopper 的 Tensor Core 原生支持 FP8 精度,算力相比 A100 提升 3 倍:

精度 A100 H100 提升倍数
FP8 不支持 3958 TFLOPS (稀疏)
FP16 312 TFLOPS 989 TFLOPS (稀疏 1979 TFLOPS) 3.2×
BF16 312 TFLOPS 989 TFLOPS (稀疏 1979 TFLOPS) 3.2×
TF32 156 TFLOPS 494 TFLOPS (稀疏 989 TFLOPS) 3.2×

3. NVLink 第四代

H100 支持第四代 NVLink,单 GPU 带宽达到 900 GB/s(A100 为 600 GB/s),多卡互联效率大幅提升。

4. DPX 指令

新增 DPX 指令,针对动态规划算法优化,在路径规划、基因组分析等场景性能提升 40 倍。

H100 关键参数
参数 H100 PCIe H100 SXM
CUDA Cores 14592 14592
Tensor Cores 456 (第四代) 456 (第四代)
显存容量 80GB HBM3 80GB HBM3
显存带宽 2000 GB/s 3350 GB/s
TDP 350W 700W
FP8 算力 989 TFLOPS (稀疏 1979 TFLOPS) 989 TFLOPS (稀疏 1979 TFLOPS)
FP16 算力 989 TFLOPS (稀疏 1979 TFLOPS) 989 TFLOPS (稀疏 1979 TFLOPS)
TF32 算力 494 TFLOPS (稀疏 989 TFLOPS) 494 TFLOPS (稀疏 989 TFLOPS)
FP64 算力 34 TFLOPS 34 TFLOPS
NVLink 不支持 900 GB/s

Blackwell 架构(2024)- AI 工厂的基石

Blackwell 是 NVIDIA 最新架构(截至 2026 年),代表产品 B100、B200 和 GB200。

核心创新

1. 第二代 Transformer Engine

支持 FP4 精度,相比 FP8 再次翻倍效率。对于推理场景,FP4 可以在几乎不损失精度的情况下将模型大小和带宽需求减少 50%。

2. 张量并行原生支持

Blackwell 原生支持跨 GPU 的张量并行,可以将多个 GPU 当作一个巨型 GPU 使用,对超大模型推理非常友好。

3. 机密计算

支持硬件级加密,保护模型权重和推理数据,对于云服务提供商和敏感行业应用非常重要。

4. GB200 Grace Blackwell 超级芯片

将 2 个 B200 GPU 和 1 个 Grace CPU 封装在一起,通过 NVLink-C2C 互联,CPU-GPU 带宽达到 900 GB/s。

B200 关键参数
参数 B200
CUDA Cores 20800
Tensor Cores 640 (第五代)
显存容量 188GB HBM3e
显存带宽 8000 GB/s
TDP 1000W
FP4 算力 20000 TFLOPS (稀疏)
FP8 算力 10000 TFLOPS (稀疏)
FP16 算力 5000 TFLOPS (稀疏)

核心计算单元解析

理解了架构演进,现在深入理解 GPU 内部的计算单元。这是理解 GPU 性能的关键。

CUDA Core - 通用计算的基础

定义:CUDA Core 是 NVIDIA GPU 的基本计算单元,可以执行浮点运算和整数运算。

关键理解

  • CUDA Core 数量 ≠ 实际性能
  • 不同架构的 CUDA Core 效率不同
  • CUDA Core 主要用于 FP32 和 FP64 计算
CUDA Core 的工作原理

GPU 采用 SIMT(单指令多线程)架构:

CPU: 少数强大核心,擅长串行任务
  └─ 核心 1: 任务 A → 任务 B → 任务 C
  
GPU: 大量简单核心,擅长并行任务
  └─ CUDA Core 1: 任务 A
     CUDA Core 2: 任务 A
     CUDA Core 3: 任务 A
     ...
     CUDA Core 6912: 任务 A

实际意义

  • 并行度高的任务(矩阵运算、图像处理)GPU 优势明显
  • 串行任务(逻辑判断、分支预测)CPU 更合适
CUDA Core 数量对比
GPU 型号 CUDA Cores 架构 相对性能指数
A100 6912 Ampere 1.0×
H100 14592 Hopper 2.5×
B200 20800 Blackwell 4.0×

⚠️ 注意:这里的相对性能指数仅针对 FP32 计算,实际性能还受显存带宽、缓存等因素影响。

Tensor Core - AI 计算的加速器

定义:Tensor Core 是专门用于矩阵乘法累加运算的硬件单元,针对 AI 训练和推理优化。

关键理解

  • Tensor Core 是 AI 性能的关键
  • 不同精度下 Tensor Core 算力差异巨大
  • 现代 AI 框架会自动利用 Tensor Core
Tensor Core 矩阵运算

Tensor Core 执行 D = A × B + C 运算,其中:

  • A、B、C、D 都是矩阵
  • 不同精度下矩阵大小不同
FP16:  16×16×16 矩阵
FP8:   16×32×32 矩阵  
FP4:   32×32×64 矩阵(Blackwell)
Tensor Core 算力解读

以 H100 为例:

精度 密集算力 稀疏算力 典型应用
FP64 34 TFLOPS 不支持 科学计算、仿真
TF32 494 TFLOPS 989 TFLOPS AI 训练(推荐)
FP16 989 TFLOPS 1979 TFLOPS AI 训练/推理
BF16 989 TFLOPS 1979 TFLOPS AI 训练(大模型)
FP8 989 TFLOPS 1979 TFLOPS AI 训练/推理(Hopper+)
FP4 不支持 不支持 -
INT8 1979 TOPS 3958 TOPS AI 推理

实战建议

  • 训练:优先使用 TF32(Ampere+)或 FP8(Hopper+),性能最好且精度足够
  • 推理:根据模型选择 FP16、INT8 或 FP4(Blackwell)
  • 科学计算:使用 FP64,但注意 H100/B200 的 FP64 算力相对有限

RT Core - 光线追踪专用

定义:RT Core 是用于光线追踪计算的专用硬件,主要用于图形渲染。

在数据中心的应用

  • 3D 建模和渲染
  • 数字孪生
  • 虚拟现实
  • 视频渲染

对于 AI 训练和推理,RT Core 基本用不到,可以忽略。

计算单元总结

单元类型 主要用途 关键精度 选型优先级
CUDA Core 通用计算、FP32/FP64 FP32、FP64 ⭐⭐⭐
Tensor Core AI 训练/推理 TF32、FP16、BF16、FP8、FP4 ⭐⭐⭐⭐⭐
RT Core 图形渲染 - ⭐(仅图形场景)

(第一部分结束,约 6500 字。下一部分将继续讲解显存系统、功耗散热和选型指南。)

显存系统详解

显存是 GPU 性能的关键瓶颈之一。很多工程师只关注显存容量,却忽视了带宽和类型的重要性。本节将深入解析显存系统的各个参数。

显存容量 - 能装下多大的模型

定义:显存容量决定了 GPU 可以加载多大的模型和数据集。

计算公式

模型显存占用 ≈ 参数量 × 精度字节数 × (1 + 梯度 + 优化器状态)
不同精度下的模型显存占用
模型规模 FP32 FP16/BF16 FP8 INT8
7B 参数 28 GB 14 GB 7 GB 3.5 GB
13B 参数 52 GB 26 GB 13 GB 6.5 GB
70B 参数 280 GB 140 GB 70 GB 35 GB
405B 参数 1620 GB 810 GB 405 GB 202.5 GB

说明

  • 推理场景:只需要模型权重,显存占用 = 参数量 × 精度字节数
  • 训练场景:需要存储权重、梯度、优化器状态,显存占用约为权重的 3-4 倍
显存容量选择建议
应用场景 推荐显存 可支持模型
小模型推理(<7B) 16-24 GB GPT-2、LLaMA-7B
中等模型推理(7B-13B) 24-48 GB LLaMA-13B、Mistral
大模型推理(70B+) 80GB+ LLaMA-70B、混合专家模型
模型微调(7B-13B) 40-80 GB LoRA/QLoRA 微调
全量训练(小模型) 80GB+ 7B 参数以下全量训练
大模型训练 多卡 80GB+ 需要模型并行

实战案例

假设你要部署 LLaMA-70B 模型:

# FP16 精度推理
显存需求 = 70B × 2 bytes = 140 GB

方案 1: 单卡无法部署
方案 2: 2× H100 80GB (160GB 显存) ✓ 可以部署
方案 3: 2× A100 80GB (160GB 显存) ✓ 可以部署
方案 4: 4× A100 40GB (160GB 显存) ✓ 可以部署,但通信开销大

显存带宽 - 数据传输的高速公路

定义:显存带宽决定了 GPU 与显存之间的数据传输速度,单位是 GB/s。

关键理解

  • 带宽不足时,GPU 计算单元会等待数据,造成性能浪费
  • 大模型推理通常是带宽受限(memory-bound),而非计算受限
  • 带宽对推理性能的影响往往大于算力
带宽计算公式
显存带宽 = 显存频率 × 显存位宽 / 8

以 A100 80GB 为例:

  • 显存频率:1593 MHz
  • 显存位宽:5120 bit
  • 带宽 = 1593 × 10^6 × 5120 / 8 = 2039 GB/s
带宽对性能的影响

案例 1:大语言模型推理

LLM 推理的每个 token 生成都需要:

  1. 从显存读取模型权重
  2. 进行矩阵计算
  3. 输出 token

对于 70B 参数的模型(FP16):

  • 每次推理需要读取 140 GB 数据
  • A100 80GB(2039 GB/s):理论最小延迟 = 140/2039 ≈ 69 ms
  • H100 SXM(3350 GB/s):理论最小延迟 = 140/3350 ≈ 42 ms

实际测试数据(LLaMA-70B,batch_size=1):

GPU 显存带宽 Token 生成速度
A100 40GB 1555 GB/s 12 tokens/s
A100 80GB 2039 GB/s 15 tokens/s
H100 PCIe 2000 GB/s 16 tokens/s
H100 SXM 3350 GB/s 22 tokens/s

可以看到,带宽提升 64%(A100 40GB → H100 SXM),推理速度提升 83%。

案例 2:训练场景

训练场景中,带宽同样关键:

  • 前向传播:读取权重
  • 反向传播:写入梯度
  • 优化器更新:读取/写入优化器状态

NCCL 多卡训练时,带宽不足会成为严重瓶颈。

显存带宽对比
GPU 型号 显存类型 显存带宽 相对带宽指数
A100 40GB HBM2e 1555 GB/s 1.0×
A100 80GB HBM2e 2039 GB/s 1.3×
H100 PCIe HBM3 2000 GB/s 1.3×
H100 SXM HBM3 3350 GB/s 2.2×
B200 HBM3e 8000 GB/s 5.1×

显存类型 - HBM 的演进

HBM(High Bandwidth Memory) 是高性能 GPU 的标准显存类型。

HBM 代际对比
类型 发布年份 单栈容量 带宽密度 代表 GPU
HBM2 2016 8 GB/栈 ~200 GB/s/mm² V100
HBM2e 2020 16 GB/栈 ~300 GB/s/mm² A100
HBM3 2022 24 GB/栈 ~450 GB/s/mm² H100
HBM3e 2024 36 GB/栈 ~600 GB/s/mm² B200

技术演进要点

  • 容量提升:单栈容量翻倍,支持更大显存
  • 带宽提升:带宽密度提升,单位面积传输更多数据
  • 功耗优化:每 GB 传输的功耗降低
HBM vs GDDR
特性 HBM GDDR6/6X
带宽 极高(1000+ GB/s) 中等(500-900 GB/s)
功耗 低(每 GB 传输) 较高
成本 较低
应用 数据中心 GPU 消费级显卡
代表 A100、H100、B200 RTX 4090

显存 ECC - 数据可靠性的保障

ECC(Error Correction Code) 显存可以检测和纠正内存错误。

重要性

  • 长时间训练任务中,位翻转可能导致训练失败
  • 科学计算和金融应用中,数据准确性至关重要
  • 消费级显卡通常不支持 ECC

NVIDIA GPU 的 ECC 支持

  • A100/H100/B200:支持 ECC
  • RTX 4090/3090:不支持 ECC

ECC 的影响

  • 启用 ECC 后,可用显存略减少(约 1-2%)
  • 性能影响可忽略(<1%)
  • 强烈建议生产环境启用 ECC
# 检查 ECC 状态
nvidia-smi -q | grep "ECC Mode"

# 启用 ECC(需要重启)
nvidia-smi -e 1

功耗与散热设计

功耗和散热是 GPU 服务器部署中容易被忽视但极其重要的环节。

TDP 解读 - 标称值 vs 实际值

TDP(Thermal Design Power) 是热设计功耗,表示 GPU 在典型工作负载下的最大功耗。

TDP 关键理解

误区 1:TDP = 实际功耗

  • TDP 是设计参考值,实际功耗可能低于或高于 TDP
  • 空载功耗:50-100W
  • 典型负载:TDP 的 70-90%
  • 峰值功耗:可能短暂超过 TDP 10-20%

误区 2:TDP = 电力需求

  • 整机功耗 = GPU TDP + CPU + 内存 + 存储 + 风扇 + 冗余
  • 建议电力冗余:20-30%
实际功耗测试数据

A100 80GB 功耗测试

负载类型 功耗 占 TDP 比例
空闲 65W 22%
轻量推理 150W 50%
FP16 训练 240W 80%
压力测试 285W 95%
瞬时峰值 310W 103%

H100 SXM 功耗测试

负载类型 功耗 占 TDP 比例
空闲 90W 13%
轻量推理 200W 29%
FP8 训练 550W 79%
压力测试 680W 97%
瞬时峰值 750W 107%

功耗管理策略

1. 功耗限制(Power Capping)

可以通过 nvidia-smi 设置功耗上限:

# 查看功耗限制范围
nvidia-smi -i 0 -pl

# 设置功耗上限为 250W
nvidia-smi -i 0 -pl 250

# 查看当前功耗
nvidia-smi -i 0 -q -d POWER

应用场景

  • 电力受限的数据中心
  • 降低散热需求
  • 多 GPU 系统均衡功耗

性能影响

  • 功耗限制为 TDP 的 80%:性能损失约 5-10%
  • 功耗限制为 TDP 的 60%:性能损失约 15-25%
2. 时钟频率管理
# 查看支持的最大时钟频率
nvidia-smi -i 0 -q -d CLOCK

# 设置持久模式(防止降频)
nvidia-smi -pm 1

# 锁定 GPU 时钟频率(高级用户)
nvidia-smi -i 0 -lgc 1410,1410  # 锁定为 1410 MHz

散热方案对比

风冷散热

原理:通过风扇和散热片将热量排出

优点

  • 成本低
  • 维护简单
  • 技术成熟

缺点

  • 散热效率有限
  • 噪音较大
  • 受环境温度影响大

适用场景

  • 单机柜 4-8 卡
  • TDP ≤ 350W 的 GPU
  • 标准数据中心环境

A100/H100 风冷部署建议

  • 机柜前后温差:<15°C
  • 进风温度:18-27°C
  • 单机柜功率密度:<30 kW
液冷散热

原理:通过冷却液直接带走 GPU 热量

类型

  1. 冷板式液冷:冷却板接触 GPU,冷却液在板内循环
  2. 浸没式液冷:整个服务器浸没在绝缘冷却液中

优点

  • 散热效率极高
  • 支持高功率密度
  • 噪音低
  • 可降低 PUE

缺点

  • 初期投资高
  • 维护复杂
  • 需要专门的基础设施

适用场景

  • 单机柜 8 卡以上
  • TDP ≥ 700W 的 GPU(如 H100 SXM、B200)
  • 高密度计算集群

H100 SXM/B200 液冷建议

  • 强烈建议液冷部署
  • 冷板式:冷却液温度 25-35°C
  • 浸没式:冷却液温度 40-50°C
  • 单机柜功率密度可达 100+ kW

电力规划实战

单机电力计算

以 8 卡 H100 PCIe 服务器为例:

组件 数量 单件功耗 总功耗
H100 PCIe 8 350W 2800W
CPU 2 250W 500W
内存 32 5W 160W
存储 4 10W 40W
主板 + 风扇 1 200W 200W
合计 - - 3700W

考虑冗余

  • 峰值功耗(+20%):4440W
  • 电源冗余(N+1):建议 5500W 电源

电源配置建议

  • 方案 1:3× 2000W 电源(N+2 冗余)
  • 方案 2:4× 1600W 电源(N+1 冗余)
机柜电力规划

标准 42U 机柜

配置 服务器数量 单机柜功耗 电力需求
4 卡服务器 8-10 台 20-25 kW 32A 三相
8 卡服务器 4-5 台 20-25 kW 32A 三相
H100 SXM 8 卡 2-3 台 15-20 kW 32A 三相 + 液冷

电力密度建议

  • 传统数据中心:4-6 kW/机柜
  • 中等密度:8-12 kW/机柜
  • 高密度:15-30 kW/机柜(需液冷)

(第二部分结束,累计约 13000 字。下一部分将继续讲解实战选型指南和附录对比表。)

实战:GPU 选型指南

理论部分讲解完毕,现在进入实战环节。本节将针对不同应用场景,提供具体的 GPU 选型建议。

选型决策框架

GPU 选型不是简单的"越贵越好",而是要根据具体需求权衡。以下是选型决策的关键维度:

                    ┌─────────────────┐
                    │   应用需求分析   │
                    └────────┬────────┘
                             │
        ┌────────────────────┼────────────────────┐
        │                    │                    │
        ▼                    ▼                    ▼
┌───────────────┐   ┌───────────────┐   ┌───────────────┐
│  计算需求     │   │  显存需求     │   │  预算约束     │
│  - 训练/推理  │   │  - 模型规模   │   │  - 采购成本   │
│  - 精度要求   │   │  - 批处理大小 │   │  - 运营成本   │
│  - 延迟要求   │   │  - 并发需求   │   │  - TCO        │
└───────┬───────┘   └───────┬───────┘   └───────┬───────┘
        │                   │                   │
        └───────────────────┼───────────────────┘
                            │
                            ▼
                  ┌─────────────────┐
                  │   GPU 型号选择   │
                  └─────────────────┘

场景 1:大语言模型推理服务

需求特征

  • 模型规模:7B - 405B 参数
  • 精度要求:FP16 或 INT8
  • 延迟敏感:首 token 延迟 < 100ms
  • 吞吐量要求:100-10000 tokens/s
  • 7×24 小时运行

选型分析

小规模部署(7B-13B 模型)
方案 GPU 配置 显存 预估成本 适用场景
方案 A 1× RTX 4090 24GB ¥15,000 开发测试、小规模
方案 B 1× A10 24GB 24GB ¥25,000 生产环境入门
方案 C 1× A100 40GB 40GB ¥80,000 高并发生产

推荐:方案 B(A10 24GB)

  • 理由:ECC 支持、稳定性好、性价比适中
  • 预期性能:LLaMA-13B FP16,约 30-40 tokens/s
中等规模部署(70B 模型)
方案 GPU 配置 总显存 预估成本 适用场景
方案 A 2× A100 80GB 160GB ¥160,000 入门生产
方案 B 2× H100 PCIe 160GB ¥280,000 高性能生产
方案 C 4× A100 40GB 160GB ¥320,000 利旧方案

推荐:方案 A(2× A100 80GB)

  • 理由:显存充足、双卡通信开销小、成本可控
  • 预期性能:LLaMA-70B FP16,约 15-20 tokens/s
大规模部署(70B+ 多模型)
方案 GPU 配置 总显存 预估成本 适用场景
方案 A 8× H100 SXM 640GB ¥2,500,000 高性能集群
方案 B 8× A100 80GB 640GB ¥800,000 性价比集群
方案 C 4× B200 752GB ¥3,000,000 下一代部署

推荐:方案 B(8× A100 80GB)

  • 理由:技术成熟、生态完善、TCO 最优
  • 预期性能:多模型并发,总吞吐量 200+ tokens/s

场景 2:大模型训练

需求特征

  • 模型规模:7B - 405B 参数
  • 精度要求:BF16/FP16 + 混合精度
  • 训练周期:数天到数周
  • 稳定性要求:极高(训练中断成本大)
  • 多机多卡:通常需要

选型分析

小模型全量训练(7B 以下)
方案 GPU 配置 总显存 预估成本 训练时间估算
方案 A 4× A100 40GB 160GB ¥320,000 7B: 3-5 天
方案 B 4× A100 80GB 320GB ¥400,000 7B: 2-3 天
方案 C 8× A100 80GB 640GB ¥800,000 7B: 1-2 天

推荐:方案 B(4× A100 80GB)

  • 理由:显存充足、支持较大 batch size、成本适中
  • 建议:启用 BF16 混合精度训练
大模型训练(70B+)
方案 GPU 配置 总显存 网络 预估成本
方案 A 64× A100 80GB 5120GB InfiniBand ¥6,400,000
方案 B 64× H100 SXM 5120GB InfiniBand ¥18,000,000
方案 C 32× B200 6016GB NVLink + IB ¥24,000,000

推荐:方案 A(64× A100 80GB)

  • 理由:技术成熟、社区支持好、TCO 最优
  • 训练时间:LLaMA-70B 约 10-15 天
  • 注意:需要专业集群运维团队

场景 3:AI 研发与实验

需求特征

  • 模型规模:多样化(1B - 70B)
  • 工作负载:训练 + 推理 + 调试
  • 灵活性要求:高
  • 并发用户:1-10 人
  • 预算:有限

选型分析

个人开发者
方案 GPU 配置 显存 预估成本 适用场景
方案 A 1× RTX 3090 24GB ¥5,000 (二手) 预算有限
方案 B 1× RTX 4090 24GB ¥15,000 主流选择
方案 C 1× A6000 48GB ¥50,000 专业需求

推荐:方案 B(RTX 4090)

  • 理由:性能强劲、性价比高、生态完善
  • 注意:不支持 ECC,不适合关键任务
  • 可运行模型:LLaMA-13B FP16、LLaMA-70B INT4
小型实验室(3-5 人)
方案 GPU 配置 总显存 预估成本 管理方式
方案 A 1 服务器×4× A100 40GB 160GB ¥320,000 共享调度
方案 B 2 服务器×2× A100 80GB 320GB ¥400,000 独立使用
方案 C 云服务 按需 ¥20,000/月 弹性使用

推荐:方案 A + 方案 C 组合

  • 自建:4× A100 40GB 用于日常开发
  • 云补:大规模训练时使用云服务
  • 总成本:自建 + 6 个月云预算 ≈ ¥500,000

场景 4:图像生成与视频处理

需求特征

  • 工作负载:Stable Diffusion、视频编解码
  • 精度要求:FP16 为主
  • 显存需求:中等(12-24GB)
  • 算力需求:高(特别是 Tensor Core)

选型分析

方案 GPU 配置 显存 预估成本 SD 生成速度
方案 A 1× RTX 4070 Ti 12GB ¥6,000 15 iter/s
方案 B 1× RTX 4090 24GB ¥15,000 40 iter/s
方案 C 1× A100 40GB 40GB ¥80,000 60 iter/s
方案 D 1× L40S 48GB ¥70,000 55 iter/s

推荐

  • 个人/小工作室:方案 B(RTX 4090)
  • 商业部署:方案 D(L40S)
    • 理由:ECC 支持、编码器强、稳定性好

场景 5:边缘 AI 与推理盒子

需求特征

  • 功耗限制:严格(<100W)
  • 尺寸限制:严格
  • 环境:可能无风扇
  • 成本:敏感

选型分析

方案 GPU TDP 预估成本 适用场景
方案 A Jetson Orin NX 15W ¥5,000 超边缘
方案 B Jetson AGX Orin 60W ¥15,000 边缘服务器
方案 C L4 72W ¥25,000 推理盒子
方案 D A10 150W ¥25,000 边缘站

推荐

  • 超低功耗:方案 B(Jetson AGX Orin)
  • 标准边缘:方案 C(L4)

附录:主流 GPU 规格对比表

数据中心 GPU 对比

参数 A100 40GB A100 80GB H100 PCIe H100 SXM B200
架构 Ampere Ampere Hopper Hopper Blackwell
CUDA Cores 6912 6912 14592 14592 20800
Tensor Cores 432 (3 代) 432 (3 代) 456 (4 代) 456 (4 代) 640 (5 代)
显存容量 40GB 80GB 80GB 80GB 188GB
显存类型 HBM2e HBM2e HBM3 HBM3 HBM3e
显存带宽 1555 GB/s 2039 GB/s 2000 GB/s 3350 GB/s 8000 GB/s
TDP 250W 300W 350W 700W 1000W
FP64 9.7 TFLOPS 9.7 TFLOPS 34 TFLOPS 34 TFLOPS -
FP32 19.5 TFLOPS 19.5 TFLOPS 67 TFLOPS 67 TFLOPS -
TF32 156/312* TFLOPS 156/312* TFLOPS 494/989* TFLOPS 494/989* TFLOPS -
FP16 312/624* TFLOPS 312/624* TFLOPS 989/1979* TFLOPS 989/1979* TFLOPS 5000/10000* TFLOPS
BF16 312/624* TFLOPS 312/624* TFLOPS 989/1979* TFLOPS 989/1979* TFLOPS 5000/10000* TFLOPS
FP8 - - 989/1979* TFLOPS 989/1979* TFLOPS 10000/20000* TFLOPS
FP4 - - - - 20000/40000* TFLOPS
INT8 624/1248* TOPS 624/1248* TOPS 1979/3958* TOPS 1979/3958* TOPS -
NVLink 600 GB/s 600 GB/s - 900 GB/s 900 GB/s
PCIe 4.0 x16 4.0 x16 5.0 x16 - 5.0 x16
ECC
MIG - - -
发布年份 2020 2020 2022 2022 2024

注:带号的数值为启用结构化稀疏后的算力

消费级/工作站 GPU 对比

参数 RTX 3090 RTX 4090 A6000 L40S
架构 Ampere Ada Lovelace Ampere Ada Lovelace
CUDA Cores 10496 16384 10752 18176
Tensor Cores 328 (3 代) 512 (4 代) 336 (3 代) 568 (4 代)
显存容量 24GB 24GB 48GB 48GB
显存类型 GDDR6X GDDR6X GDDR6 GDDR6
显存带宽 936 GB/s 1008 GB/s 768 GB/s 864 GB/s
TDP 350W 450W 300W 350W
FP32 35.6 TFLOPS 82.6 TFLOPS 38.7 TFLOPS 91.6 TFLOPS
FP16 142 TFLOPS 330 TFLOPS 155 TFLOPS 366 TFLOPS
INT8 284 TOPS 661 TOPS 310 TOPS 733 TOPS
NVLink ✓ (600 GB/s) - ✓ (112 GB/s) -
ECC - -
视频编码 3× NVENC 3× NVENC 3× NVENC 4× NVENC (AV1)
定位 消费旗舰 消费旗舰 工作站 数据中心

边缘 AI GPU 对比

参数 Jetson Orin NX Jetson AGX Orin L4
CUDA Cores 1024 2048 7424
Tensor Cores 32 (4 代) 64 (4 代) 232 (4 代)
显存容量 16GB 32GB/64GB 24GB
显存带宽 102 GB/s 273 GB/s 300 GB/s
TDP 15W 60W 72W
FP16 100 TFLOPS 200 TFLOPS 147 TFLOPS
INT8 200 TOPS 400 TOPS 295 TOPS
视频解码 2× 4K60 8× 4K60 4× 4K60
视频编码 2× 4K60 8× 4K60 4× 4K60
尺寸 70×45mm 100×100mm PCIe 半高

总结与行动建议

核心要点回顾

  1. 架构选择

    • 当前性价比最优:Ampere(A100)
    • 性能优先:Hopper(H100)
    • 未来部署:Blackwell(B200)
  2. 显存优先于算力

    • 大模型场景,带宽往往比算力更关键
    • 容量不足无法运行,带宽不足只是慢
  3. 精度选择策略

    • 训练:TF32(Ampere)或 FP8(Hopper+)
    • 推理:FP16/BF16 或 INT8/FP4
  4. 散热与电力

    • 风冷上限:约 350W TDP
    • 液冷建议:≥700W TDP
    • 电力冗余:至少 20%

下一步行动

  1. 明确需求:根据本文选型框架,确定你的具体需求
  2. 预算评估:考虑采购成本 + 运营成本(电费、散热)
  3. 环境准备:确认机房电力、散热条件
  4. PoC 测试:采购前进行概念验证测试
  5. 规模部署:根据 PoC 结果调整方案

延伸阅读

  • Day 02:GPU 服务器架构
  • Day 03:网络基础:以太网与 InfiniBand
  • Day 06:测试环境搭建
  • Day 14:LLM 推理引擎概览
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐