(三)32天GPU测试从入门到精通-GPU 硬件基础day1
目录
引言
在 GPU 服务器测试的整个知识体系中,硬件参数是最基础也是最关键的一环。无论你是要搭建 AI 训练集群、部署推理服务,还是进行性能基准测试,对 GPU 硬件参数的深入理解都是必不可少的前提。
然而,在实际工作中,我发现很多工程师在面对 GPU 选型时常常感到困惑:
- H100 和 A100 到底差在哪里? 除了价格,如何量化它们的性能差异?
- 显存带宽为什么比容量更重要? 什么场景下会成为瓶颈?
- TDP 功耗标称值为什么实际测试中对不上? 如何合理规划电力?
- PCIe 4.0 和 PCIe 5.0 对性能影响有多大? 什么时候需要关注这个参数?
这些问题背后,都涉及到对 GPU 硬件参数的系统性理解。
本文目标
本文将带你深入理解 GPU 硬件参数的本质,内容包括:
- 架构演进 - 从 Ampere 到 Blackwell,理解每代架构的核心改进
- 计算单元 - CUDA Core、Tensor Core、RT Core 的实际意义
- 显存系统 - 容量、带宽、类型的选择策略
- 功耗散热 - TDP 解读、散热方案、电力规划
- 选型指南 - 不同场景下的 GPU 选择建议
阅读建议
- 初学者:建议完整阅读,建立系统性认知
- 有经验者:可跳读至第 6 节选型指南和第 7 节对比表
- 测试工程师:重点关注第 3、4 节,理解性能瓶颈来源
GPU 架构演进史
理解 GPU 参数,首先要理解架构演进。NVIDIA 的 GPU 架构以科学家命名,每代架构都代表了计算能力的重大飞跃。
架构代际概览
| 架构代号 | 发布年份 | 代表产品 | 工艺制程 | 关键特性 |
|---|---|---|---|---|
| Volta | 2017 | V100 | 12nm FFN | 首次引入 Tensor Core |
| Ampere | 2020 | A100/A800 | 7nm | 结构化稀疏、TF32 |
| Hopper | 2022 | H100/H800 | 4N (TSMC 5nm 定制) | Transformer Engine、FP8 |
| Blackwell | 2024 | B100/B200/GB200 | 4NP (TSMC 4nm 定制) | 第二代 Transformer Engine、FP4 |
Ampere 架构(2020)- AI 计算的里程碑
Ampere 是 NVIDIA 数据中心 GPU 的重要转折点,代表产品 A100 至今仍在广泛使用。
核心创新
1. 第三代 Tensor Core
Ampere 的 Tensor Core 支持多种精度:
- FP64 - 双精度,科学计算
- FP32 - 单精度,通用计算
- TF32 - Ampere 新增,19 位有效数字,性能是 FP32 的 20 倍
- FP16 - 半精度,传统 AI 训练
- BF16 - Brain Floating Point,动态范围更大
- INT8 - 8 位整数,推理加速
TF32 的引入是革命性的。它让 AI 训练可以在几乎不损失精度的情况下,获得接近 FP16 的速度,而且不需要修改代码——只要使用 Ampere GPU,TF32 自动生效。
2. 结构化稀疏(Structured Sparsity)
Ampere 支持 2:4 结构化稀疏,即每 4 个权重中可以稀疏化 2 个。在稀疏模式下,Tensor Core 性能可以翻倍。
传统密集计算:[w1, w2, w3, w4] → 4 次乘法
2:4 稀疏计算:[w1, 0, w3, 0] → 2 次乘法(性能×2)
3. 多实例 GPU(MIG)
A100 首次支持 MIG 技术,可以将一块 A100 划分为最多 7 个独立的 GPU 实例,每个实例有自己独立的显存、缓存和计算资源。这对于多租户云服务和小型推理任务非常有用。
1× A100 80GB 可以划分为:
- 7× 10GB 实例
- 6× 12GB 实例
- 4× 20GB 实例
- 3× 24GB 实例
- 2× 40GB 实例
- 1× 80GB 实例
A100 关键参数
| 参数 | A100 40GB | A100 80GB |
|---|---|---|
| CUDA Cores | 6912 | 6912 |
| Tensor Cores | 432 (第三代) | 432 (第三代) |
| 显存容量 | 40GB HBM2e | 80GB HBM2e |
| 显存带宽 | 1555 GB/s | 2039 GB/s |
| TDP | 250W | 300W |
| FP32 算力 | 19.5 TFLOPS | 19.5 TFLOPS |
| TF32 算力 | 156 TFLOPS (稀疏 312 TFLOPS) | 156 TFLOPS (稀疏 312 TFLOPS) |
| FP16 算力 | 312 TFLOPS (稀疏 624 TFLOPS) | 312 TFLOPS (稀疏 624 TFLOPS) |
| INT8 算力 | 624 TOPS (稀疏 1248 TOPS) | 624 TOPS (稀疏 1248 TOPS) |
Hopper 架构(2022)- 为大模型而生
Hopper 架构是专为 Transformer 和大语言模型设计的架构,H100 是其代表产品。
核心创新
1. Transformer Engine
这是 Hopper 最核心的创新。Transformer Engine 可以自动混合使用 FP8 和 FP16 精度进行训练,在保证模型收敛的前提下大幅提升训练速度。
# 使用 Transformer Engine 的代码示例
from transformer_engine import pytorch as te
# 传统方式
linear = torch.nn.Linear(512, 512)
# 使用 Transformer Engine
linear = te.Linear(512, 512) # 自动 FP8/FP16 混合精度
FP8 相比 FP16:
- 数据量减少 50%
- 计算速度提升 2 倍
- 显存占用减少 50%
2. 第四代 Tensor Core
Hopper 的 Tensor Core 原生支持 FP8 精度,算力相比 A100 提升 3 倍:
| 精度 | A100 | H100 | 提升倍数 |
|---|---|---|---|
| FP8 | 不支持 | 3958 TFLOPS (稀疏) | ∞ |
| FP16 | 312 TFLOPS | 989 TFLOPS (稀疏 1979 TFLOPS) | 3.2× |
| BF16 | 312 TFLOPS | 989 TFLOPS (稀疏 1979 TFLOPS) | 3.2× |
| TF32 | 156 TFLOPS | 494 TFLOPS (稀疏 989 TFLOPS) | 3.2× |
3. NVLink 第四代
H100 支持第四代 NVLink,单 GPU 带宽达到 900 GB/s(A100 为 600 GB/s),多卡互联效率大幅提升。
4. DPX 指令
新增 DPX 指令,针对动态规划算法优化,在路径规划、基因组分析等场景性能提升 40 倍。
H100 关键参数
| 参数 | H100 PCIe | H100 SXM |
|---|---|---|
| CUDA Cores | 14592 | 14592 |
| Tensor Cores | 456 (第四代) | 456 (第四代) |
| 显存容量 | 80GB HBM3 | 80GB HBM3 |
| 显存带宽 | 2000 GB/s | 3350 GB/s |
| TDP | 350W | 700W |
| FP8 算力 | 989 TFLOPS (稀疏 1979 TFLOPS) | 989 TFLOPS (稀疏 1979 TFLOPS) |
| FP16 算力 | 989 TFLOPS (稀疏 1979 TFLOPS) | 989 TFLOPS (稀疏 1979 TFLOPS) |
| TF32 算力 | 494 TFLOPS (稀疏 989 TFLOPS) | 494 TFLOPS (稀疏 989 TFLOPS) |
| FP64 算力 | 34 TFLOPS | 34 TFLOPS |
| NVLink | 不支持 | 900 GB/s |
Blackwell 架构(2024)- AI 工厂的基石
Blackwell 是 NVIDIA 最新架构(截至 2026 年),代表产品 B100、B200 和 GB200。
核心创新
1. 第二代 Transformer Engine
支持 FP4 精度,相比 FP8 再次翻倍效率。对于推理场景,FP4 可以在几乎不损失精度的情况下将模型大小和带宽需求减少 50%。
2. 张量并行原生支持
Blackwell 原生支持跨 GPU 的张量并行,可以将多个 GPU 当作一个巨型 GPU 使用,对超大模型推理非常友好。
3. 机密计算
支持硬件级加密,保护模型权重和推理数据,对于云服务提供商和敏感行业应用非常重要。
4. GB200 Grace Blackwell 超级芯片
将 2 个 B200 GPU 和 1 个 Grace CPU 封装在一起,通过 NVLink-C2C 互联,CPU-GPU 带宽达到 900 GB/s。
B200 关键参数
| 参数 | B200 |
|---|---|
| CUDA Cores | 20800 |
| Tensor Cores | 640 (第五代) |
| 显存容量 | 188GB HBM3e |
| 显存带宽 | 8000 GB/s |
| TDP | 1000W |
| FP4 算力 | 20000 TFLOPS (稀疏) |
| FP8 算力 | 10000 TFLOPS (稀疏) |
| FP16 算力 | 5000 TFLOPS (稀疏) |
核心计算单元解析
理解了架构演进,现在深入理解 GPU 内部的计算单元。这是理解 GPU 性能的关键。
CUDA Core - 通用计算的基础
定义:CUDA Core 是 NVIDIA GPU 的基本计算单元,可以执行浮点运算和整数运算。
关键理解:
- CUDA Core 数量 ≠ 实际性能
- 不同架构的 CUDA Core 效率不同
- CUDA Core 主要用于 FP32 和 FP64 计算
CUDA Core 的工作原理
GPU 采用 SIMT(单指令多线程)架构:
CPU: 少数强大核心,擅长串行任务
└─ 核心 1: 任务 A → 任务 B → 任务 C
GPU: 大量简单核心,擅长并行任务
└─ CUDA Core 1: 任务 A
CUDA Core 2: 任务 A
CUDA Core 3: 任务 A
...
CUDA Core 6912: 任务 A
实际意义:
- 并行度高的任务(矩阵运算、图像处理)GPU 优势明显
- 串行任务(逻辑判断、分支预测)CPU 更合适
CUDA Core 数量对比
| GPU 型号 | CUDA Cores | 架构 | 相对性能指数 |
|---|---|---|---|
| A100 | 6912 | Ampere | 1.0× |
| H100 | 14592 | Hopper | 2.5× |
| B200 | 20800 | Blackwell | 4.0× |
⚠️ 注意:这里的相对性能指数仅针对 FP32 计算,实际性能还受显存带宽、缓存等因素影响。
Tensor Core - AI 计算的加速器
定义:Tensor Core 是专门用于矩阵乘法累加运算的硬件单元,针对 AI 训练和推理优化。
关键理解:
- Tensor Core 是 AI 性能的关键
- 不同精度下 Tensor Core 算力差异巨大
- 现代 AI 框架会自动利用 Tensor Core
Tensor Core 矩阵运算
Tensor Core 执行 D = A × B + C 运算,其中:
- A、B、C、D 都是矩阵
- 不同精度下矩阵大小不同
FP16: 16×16×16 矩阵
FP8: 16×32×32 矩阵
FP4: 32×32×64 矩阵(Blackwell)
Tensor Core 算力解读
以 H100 为例:
| 精度 | 密集算力 | 稀疏算力 | 典型应用 |
|---|---|---|---|
| FP64 | 34 TFLOPS | 不支持 | 科学计算、仿真 |
| TF32 | 494 TFLOPS | 989 TFLOPS | AI 训练(推荐) |
| FP16 | 989 TFLOPS | 1979 TFLOPS | AI 训练/推理 |
| BF16 | 989 TFLOPS | 1979 TFLOPS | AI 训练(大模型) |
| FP8 | 989 TFLOPS | 1979 TFLOPS | AI 训练/推理(Hopper+) |
| FP4 | 不支持 | 不支持 | - |
| INT8 | 1979 TOPS | 3958 TOPS | AI 推理 |
实战建议:
- 训练:优先使用 TF32(Ampere+)或 FP8(Hopper+),性能最好且精度足够
- 推理:根据模型选择 FP16、INT8 或 FP4(Blackwell)
- 科学计算:使用 FP64,但注意 H100/B200 的 FP64 算力相对有限
RT Core - 光线追踪专用
定义:RT Core 是用于光线追踪计算的专用硬件,主要用于图形渲染。
在数据中心的应用:
- 3D 建模和渲染
- 数字孪生
- 虚拟现实
- 视频渲染
对于 AI 训练和推理,RT Core 基本用不到,可以忽略。
计算单元总结
| 单元类型 | 主要用途 | 关键精度 | 选型优先级 |
|---|---|---|---|
| CUDA Core | 通用计算、FP32/FP64 | FP32、FP64 | ⭐⭐⭐ |
| Tensor Core | AI 训练/推理 | TF32、FP16、BF16、FP8、FP4 | ⭐⭐⭐⭐⭐ |
| RT Core | 图形渲染 | - | ⭐(仅图形场景) |
(第一部分结束,约 6500 字。下一部分将继续讲解显存系统、功耗散热和选型指南。)
显存系统详解
显存是 GPU 性能的关键瓶颈之一。很多工程师只关注显存容量,却忽视了带宽和类型的重要性。本节将深入解析显存系统的各个参数。
显存容量 - 能装下多大的模型
定义:显存容量决定了 GPU 可以加载多大的模型和数据集。
计算公式:
模型显存占用 ≈ 参数量 × 精度字节数 × (1 + 梯度 + 优化器状态)
不同精度下的模型显存占用
| 模型规模 | FP32 | FP16/BF16 | FP8 | INT8 |
|---|---|---|---|---|
| 7B 参数 | 28 GB | 14 GB | 7 GB | 3.5 GB |
| 13B 参数 | 52 GB | 26 GB | 13 GB | 6.5 GB |
| 70B 参数 | 280 GB | 140 GB | 70 GB | 35 GB |
| 405B 参数 | 1620 GB | 810 GB | 405 GB | 202.5 GB |
说明:
- 推理场景:只需要模型权重,显存占用 = 参数量 × 精度字节数
- 训练场景:需要存储权重、梯度、优化器状态,显存占用约为权重的 3-4 倍
显存容量选择建议
| 应用场景 | 推荐显存 | 可支持模型 |
|---|---|---|
| 小模型推理(<7B) | 16-24 GB | GPT-2、LLaMA-7B |
| 中等模型推理(7B-13B) | 24-48 GB | LLaMA-13B、Mistral |
| 大模型推理(70B+) | 80GB+ | LLaMA-70B、混合专家模型 |
| 模型微调(7B-13B) | 40-80 GB | LoRA/QLoRA 微调 |
| 全量训练(小模型) | 80GB+ | 7B 参数以下全量训练 |
| 大模型训练 | 多卡 80GB+ | 需要模型并行 |
实战案例:
假设你要部署 LLaMA-70B 模型:
# FP16 精度推理
显存需求 = 70B × 2 bytes = 140 GB
方案 1: 单卡无法部署
方案 2: 2× H100 80GB (160GB 显存) ✓ 可以部署
方案 3: 2× A100 80GB (160GB 显存) ✓ 可以部署
方案 4: 4× A100 40GB (160GB 显存) ✓ 可以部署,但通信开销大
显存带宽 - 数据传输的高速公路
定义:显存带宽决定了 GPU 与显存之间的数据传输速度,单位是 GB/s。
关键理解:
- 带宽不足时,GPU 计算单元会等待数据,造成性能浪费
- 大模型推理通常是带宽受限(memory-bound),而非计算受限
- 带宽对推理性能的影响往往大于算力
带宽计算公式
显存带宽 = 显存频率 × 显存位宽 / 8
以 A100 80GB 为例:
- 显存频率:1593 MHz
- 显存位宽:5120 bit
- 带宽 = 1593 × 10^6 × 5120 / 8 = 2039 GB/s
带宽对性能的影响
案例 1:大语言模型推理
LLM 推理的每个 token 生成都需要:
- 从显存读取模型权重
- 进行矩阵计算
- 输出 token
对于 70B 参数的模型(FP16):
- 每次推理需要读取 140 GB 数据
- A100 80GB(2039 GB/s):理论最小延迟 = 140/2039 ≈ 69 ms
- H100 SXM(3350 GB/s):理论最小延迟 = 140/3350 ≈ 42 ms
实际测试数据(LLaMA-70B,batch_size=1):
| GPU | 显存带宽 | Token 生成速度 |
|---|---|---|
| A100 40GB | 1555 GB/s | 12 tokens/s |
| A100 80GB | 2039 GB/s | 15 tokens/s |
| H100 PCIe | 2000 GB/s | 16 tokens/s |
| H100 SXM | 3350 GB/s | 22 tokens/s |
可以看到,带宽提升 64%(A100 40GB → H100 SXM),推理速度提升 83%。
案例 2:训练场景
训练场景中,带宽同样关键:
- 前向传播:读取权重
- 反向传播:写入梯度
- 优化器更新:读取/写入优化器状态
NCCL 多卡训练时,带宽不足会成为严重瓶颈。
显存带宽对比
| GPU 型号 | 显存类型 | 显存带宽 | 相对带宽指数 |
|---|---|---|---|
| A100 40GB | HBM2e | 1555 GB/s | 1.0× |
| A100 80GB | HBM2e | 2039 GB/s | 1.3× |
| H100 PCIe | HBM3 | 2000 GB/s | 1.3× |
| H100 SXM | HBM3 | 3350 GB/s | 2.2× |
| B200 | HBM3e | 8000 GB/s | 5.1× |
显存类型 - HBM 的演进
HBM(High Bandwidth Memory) 是高性能 GPU 的标准显存类型。
HBM 代际对比
| 类型 | 发布年份 | 单栈容量 | 带宽密度 | 代表 GPU |
|---|---|---|---|---|
| HBM2 | 2016 | 8 GB/栈 | ~200 GB/s/mm² | V100 |
| HBM2e | 2020 | 16 GB/栈 | ~300 GB/s/mm² | A100 |
| HBM3 | 2022 | 24 GB/栈 | ~450 GB/s/mm² | H100 |
| HBM3e | 2024 | 36 GB/栈 | ~600 GB/s/mm² | B200 |
技术演进要点:
- 容量提升:单栈容量翻倍,支持更大显存
- 带宽提升:带宽密度提升,单位面积传输更多数据
- 功耗优化:每 GB 传输的功耗降低
HBM vs GDDR
| 特性 | HBM | GDDR6/6X |
|---|---|---|
| 带宽 | 极高(1000+ GB/s) | 中等(500-900 GB/s) |
| 功耗 | 低(每 GB 传输) | 较高 |
| 成本 | 高 | 较低 |
| 应用 | 数据中心 GPU | 消费级显卡 |
| 代表 | A100、H100、B200 | RTX 4090 |
显存 ECC - 数据可靠性的保障
ECC(Error Correction Code) 显存可以检测和纠正内存错误。
重要性:
- 长时间训练任务中,位翻转可能导致训练失败
- 科学计算和金融应用中,数据准确性至关重要
- 消费级显卡通常不支持 ECC
NVIDIA GPU 的 ECC 支持:
- A100/H100/B200:支持 ECC
- RTX 4090/3090:不支持 ECC
ECC 的影响:
- 启用 ECC 后,可用显存略减少(约 1-2%)
- 性能影响可忽略(<1%)
- 强烈建议生产环境启用 ECC
# 检查 ECC 状态
nvidia-smi -q | grep "ECC Mode"
# 启用 ECC(需要重启)
nvidia-smi -e 1
功耗与散热设计
功耗和散热是 GPU 服务器部署中容易被忽视但极其重要的环节。
TDP 解读 - 标称值 vs 实际值
TDP(Thermal Design Power) 是热设计功耗,表示 GPU 在典型工作负载下的最大功耗。
TDP 关键理解
误区 1:TDP = 实际功耗
- TDP 是设计参考值,实际功耗可能低于或高于 TDP
- 空载功耗:50-100W
- 典型负载:TDP 的 70-90%
- 峰值功耗:可能短暂超过 TDP 10-20%
误区 2:TDP = 电力需求
- 整机功耗 = GPU TDP + CPU + 内存 + 存储 + 风扇 + 冗余
- 建议电力冗余:20-30%
实际功耗测试数据
A100 80GB 功耗测试:
| 负载类型 | 功耗 | 占 TDP 比例 |
|---|---|---|
| 空闲 | 65W | 22% |
| 轻量推理 | 150W | 50% |
| FP16 训练 | 240W | 80% |
| 压力测试 | 285W | 95% |
| 瞬时峰值 | 310W | 103% |
H100 SXM 功耗测试:
| 负载类型 | 功耗 | 占 TDP 比例 |
|---|---|---|
| 空闲 | 90W | 13% |
| 轻量推理 | 200W | 29% |
| FP8 训练 | 550W | 79% |
| 压力测试 | 680W | 97% |
| 瞬时峰值 | 750W | 107% |
功耗管理策略
1. 功耗限制(Power Capping)
可以通过 nvidia-smi 设置功耗上限:
# 查看功耗限制范围
nvidia-smi -i 0 -pl
# 设置功耗上限为 250W
nvidia-smi -i 0 -pl 250
# 查看当前功耗
nvidia-smi -i 0 -q -d POWER
应用场景:
- 电力受限的数据中心
- 降低散热需求
- 多 GPU 系统均衡功耗
性能影响:
- 功耗限制为 TDP 的 80%:性能损失约 5-10%
- 功耗限制为 TDP 的 60%:性能损失约 15-25%
2. 时钟频率管理
# 查看支持的最大时钟频率
nvidia-smi -i 0 -q -d CLOCK
# 设置持久模式(防止降频)
nvidia-smi -pm 1
# 锁定 GPU 时钟频率(高级用户)
nvidia-smi -i 0 -lgc 1410,1410 # 锁定为 1410 MHz
散热方案对比
风冷散热
原理:通过风扇和散热片将热量排出
优点:
- 成本低
- 维护简单
- 技术成熟
缺点:
- 散热效率有限
- 噪音较大
- 受环境温度影响大
适用场景:
- 单机柜 4-8 卡
- TDP ≤ 350W 的 GPU
- 标准数据中心环境
A100/H100 风冷部署建议:
- 机柜前后温差:<15°C
- 进风温度:18-27°C
- 单机柜功率密度:<30 kW
液冷散热
原理:通过冷却液直接带走 GPU 热量
类型:
- 冷板式液冷:冷却板接触 GPU,冷却液在板内循环
- 浸没式液冷:整个服务器浸没在绝缘冷却液中
优点:
- 散热效率极高
- 支持高功率密度
- 噪音低
- 可降低 PUE
缺点:
- 初期投资高
- 维护复杂
- 需要专门的基础设施
适用场景:
- 单机柜 8 卡以上
- TDP ≥ 700W 的 GPU(如 H100 SXM、B200)
- 高密度计算集群
H100 SXM/B200 液冷建议:
- 强烈建议液冷部署
- 冷板式:冷却液温度 25-35°C
- 浸没式:冷却液温度 40-50°C
- 单机柜功率密度可达 100+ kW
电力规划实战
单机电力计算
以 8 卡 H100 PCIe 服务器为例:
| 组件 | 数量 | 单件功耗 | 总功耗 |
|---|---|---|---|
| H100 PCIe | 8 | 350W | 2800W |
| CPU | 2 | 250W | 500W |
| 内存 | 32 | 5W | 160W |
| 存储 | 4 | 10W | 40W |
| 主板 + 风扇 | 1 | 200W | 200W |
| 合计 | - | - | 3700W |
考虑冗余:
- 峰值功耗(+20%):4440W
- 电源冗余(N+1):建议 5500W 电源
电源配置建议:
- 方案 1:3× 2000W 电源(N+2 冗余)
- 方案 2:4× 1600W 电源(N+1 冗余)
机柜电力规划
标准 42U 机柜:
| 配置 | 服务器数量 | 单机柜功耗 | 电力需求 |
|---|---|---|---|
| 4 卡服务器 | 8-10 台 | 20-25 kW | 32A 三相 |
| 8 卡服务器 | 4-5 台 | 20-25 kW | 32A 三相 |
| H100 SXM 8 卡 | 2-3 台 | 15-20 kW | 32A 三相 + 液冷 |
电力密度建议:
- 传统数据中心:4-6 kW/机柜
- 中等密度:8-12 kW/机柜
- 高密度:15-30 kW/机柜(需液冷)
(第二部分结束,累计约 13000 字。下一部分将继续讲解实战选型指南和附录对比表。)
实战:GPU 选型指南
理论部分讲解完毕,现在进入实战环节。本节将针对不同应用场景,提供具体的 GPU 选型建议。
选型决策框架
GPU 选型不是简单的"越贵越好",而是要根据具体需求权衡。以下是选型决策的关键维度:
┌─────────────────┐
│ 应用需求分析 │
└────────┬────────┘
│
┌────────────────────┼────────────────────┐
│ │ │
▼ ▼ ▼
┌───────────────┐ ┌───────────────┐ ┌───────────────┐
│ 计算需求 │ │ 显存需求 │ │ 预算约束 │
│ - 训练/推理 │ │ - 模型规模 │ │ - 采购成本 │
│ - 精度要求 │ │ - 批处理大小 │ │ - 运营成本 │
│ - 延迟要求 │ │ - 并发需求 │ │ - TCO │
└───────┬───────┘ └───────┬───────┘ └───────┬───────┘
│ │ │
└───────────────────┼───────────────────┘
│
▼
┌─────────────────┐
│ GPU 型号选择 │
└─────────────────┘
场景 1:大语言模型推理服务
需求特征:
- 模型规模:7B - 405B 参数
- 精度要求:FP16 或 INT8
- 延迟敏感:首 token 延迟 < 100ms
- 吞吐量要求:100-10000 tokens/s
- 7×24 小时运行
选型分析:
小规模部署(7B-13B 模型)
| 方案 | GPU 配置 | 显存 | 预估成本 | 适用场景 |
|---|---|---|---|---|
| 方案 A | 1× RTX 4090 | 24GB | ¥15,000 | 开发测试、小规模 |
| 方案 B | 1× A10 24GB | 24GB | ¥25,000 | 生产环境入门 |
| 方案 C | 1× A100 40GB | 40GB | ¥80,000 | 高并发生产 |
推荐:方案 B(A10 24GB)
- 理由:ECC 支持、稳定性好、性价比适中
- 预期性能:LLaMA-13B FP16,约 30-40 tokens/s
中等规模部署(70B 模型)
| 方案 | GPU 配置 | 总显存 | 预估成本 | 适用场景 |
|---|---|---|---|---|
| 方案 A | 2× A100 80GB | 160GB | ¥160,000 | 入门生产 |
| 方案 B | 2× H100 PCIe | 160GB | ¥280,000 | 高性能生产 |
| 方案 C | 4× A100 40GB | 160GB | ¥320,000 | 利旧方案 |
推荐:方案 A(2× A100 80GB)
- 理由:显存充足、双卡通信开销小、成本可控
- 预期性能:LLaMA-70B FP16,约 15-20 tokens/s
大规模部署(70B+ 多模型)
| 方案 | GPU 配置 | 总显存 | 预估成本 | 适用场景 |
|---|---|---|---|---|
| 方案 A | 8× H100 SXM | 640GB | ¥2,500,000 | 高性能集群 |
| 方案 B | 8× A100 80GB | 640GB | ¥800,000 | 性价比集群 |
| 方案 C | 4× B200 | 752GB | ¥3,000,000 | 下一代部署 |
推荐:方案 B(8× A100 80GB)
- 理由:技术成熟、生态完善、TCO 最优
- 预期性能:多模型并发,总吞吐量 200+ tokens/s
场景 2:大模型训练
需求特征:
- 模型规模:7B - 405B 参数
- 精度要求:BF16/FP16 + 混合精度
- 训练周期:数天到数周
- 稳定性要求:极高(训练中断成本大)
- 多机多卡:通常需要
选型分析:
小模型全量训练(7B 以下)
| 方案 | GPU 配置 | 总显存 | 预估成本 | 训练时间估算 |
|---|---|---|---|---|
| 方案 A | 4× A100 40GB | 160GB | ¥320,000 | 7B: 3-5 天 |
| 方案 B | 4× A100 80GB | 320GB | ¥400,000 | 7B: 2-3 天 |
| 方案 C | 8× A100 80GB | 640GB | ¥800,000 | 7B: 1-2 天 |
推荐:方案 B(4× A100 80GB)
- 理由:显存充足、支持较大 batch size、成本适中
- 建议:启用 BF16 混合精度训练
大模型训练(70B+)
| 方案 | GPU 配置 | 总显存 | 网络 | 预估成本 |
|---|---|---|---|---|
| 方案 A | 64× A100 80GB | 5120GB | InfiniBand | ¥6,400,000 |
| 方案 B | 64× H100 SXM | 5120GB | InfiniBand | ¥18,000,000 |
| 方案 C | 32× B200 | 6016GB | NVLink + IB | ¥24,000,000 |
推荐:方案 A(64× A100 80GB)
- 理由:技术成熟、社区支持好、TCO 最优
- 训练时间:LLaMA-70B 约 10-15 天
- 注意:需要专业集群运维团队
场景 3:AI 研发与实验
需求特征:
- 模型规模:多样化(1B - 70B)
- 工作负载:训练 + 推理 + 调试
- 灵活性要求:高
- 并发用户:1-10 人
- 预算:有限
选型分析:
个人开发者
| 方案 | GPU 配置 | 显存 | 预估成本 | 适用场景 |
|---|---|---|---|---|
| 方案 A | 1× RTX 3090 | 24GB | ¥5,000 (二手) | 预算有限 |
| 方案 B | 1× RTX 4090 | 24GB | ¥15,000 | 主流选择 |
| 方案 C | 1× A6000 | 48GB | ¥50,000 | 专业需求 |
推荐:方案 B(RTX 4090)
- 理由:性能强劲、性价比高、生态完善
- 注意:不支持 ECC,不适合关键任务
- 可运行模型:LLaMA-13B FP16、LLaMA-70B INT4
小型实验室(3-5 人)
| 方案 | GPU 配置 | 总显存 | 预估成本 | 管理方式 |
|---|---|---|---|---|
| 方案 A | 1 服务器×4× A100 40GB | 160GB | ¥320,000 | 共享调度 |
| 方案 B | 2 服务器×2× A100 80GB | 320GB | ¥400,000 | 独立使用 |
| 方案 C | 云服务 | 按需 | ¥20,000/月 | 弹性使用 |
推荐:方案 A + 方案 C 组合
- 自建:4× A100 40GB 用于日常开发
- 云补:大规模训练时使用云服务
- 总成本:自建 + 6 个月云预算 ≈ ¥500,000
场景 4:图像生成与视频处理
需求特征:
- 工作负载:Stable Diffusion、视频编解码
- 精度要求:FP16 为主
- 显存需求:中等(12-24GB)
- 算力需求:高(特别是 Tensor Core)
选型分析:
| 方案 | GPU 配置 | 显存 | 预估成本 | SD 生成速度 |
|---|---|---|---|---|
| 方案 A | 1× RTX 4070 Ti | 12GB | ¥6,000 | 15 iter/s |
| 方案 B | 1× RTX 4090 | 24GB | ¥15,000 | 40 iter/s |
| 方案 C | 1× A100 40GB | 40GB | ¥80,000 | 60 iter/s |
| 方案 D | 1× L40S | 48GB | ¥70,000 | 55 iter/s |
推荐:
- 个人/小工作室:方案 B(RTX 4090)
- 商业部署:方案 D(L40S)
- 理由:ECC 支持、编码器强、稳定性好
场景 5:边缘 AI 与推理盒子
需求特征:
- 功耗限制:严格(<100W)
- 尺寸限制:严格
- 环境:可能无风扇
- 成本:敏感
选型分析:
| 方案 | GPU | TDP | 预估成本 | 适用场景 |
|---|---|---|---|---|
| 方案 A | Jetson Orin NX | 15W | ¥5,000 | 超边缘 |
| 方案 B | Jetson AGX Orin | 60W | ¥15,000 | 边缘服务器 |
| 方案 C | L4 | 72W | ¥25,000 | 推理盒子 |
| 方案 D | A10 | 150W | ¥25,000 | 边缘站 |
推荐:
- 超低功耗:方案 B(Jetson AGX Orin)
- 标准边缘:方案 C(L4)
附录:主流 GPU 规格对比表
数据中心 GPU 对比
| 参数 | A100 40GB | A100 80GB | H100 PCIe | H100 SXM | B200 |
|---|---|---|---|---|---|
| 架构 | Ampere | Ampere | Hopper | Hopper | Blackwell |
| CUDA Cores | 6912 | 6912 | 14592 | 14592 | 20800 |
| Tensor Cores | 432 (3 代) | 432 (3 代) | 456 (4 代) | 456 (4 代) | 640 (5 代) |
| 显存容量 | 40GB | 80GB | 80GB | 80GB | 188GB |
| 显存类型 | HBM2e | HBM2e | HBM3 | HBM3 | HBM3e |
| 显存带宽 | 1555 GB/s | 2039 GB/s | 2000 GB/s | 3350 GB/s | 8000 GB/s |
| TDP | 250W | 300W | 350W | 700W | 1000W |
| FP64 | 9.7 TFLOPS | 9.7 TFLOPS | 34 TFLOPS | 34 TFLOPS | - |
| FP32 | 19.5 TFLOPS | 19.5 TFLOPS | 67 TFLOPS | 67 TFLOPS | - |
| TF32 | 156/312* TFLOPS | 156/312* TFLOPS | 494/989* TFLOPS | 494/989* TFLOPS | - |
| FP16 | 312/624* TFLOPS | 312/624* TFLOPS | 989/1979* TFLOPS | 989/1979* TFLOPS | 5000/10000* TFLOPS |
| BF16 | 312/624* TFLOPS | 312/624* TFLOPS | 989/1979* TFLOPS | 989/1979* TFLOPS | 5000/10000* TFLOPS |
| FP8 | - | - | 989/1979* TFLOPS | 989/1979* TFLOPS | 10000/20000* TFLOPS |
| FP4 | - | - | - | - | 20000/40000* TFLOPS |
| INT8 | 624/1248* TOPS | 624/1248* TOPS | 1979/3958* TOPS | 1979/3958* TOPS | - |
| NVLink | 600 GB/s | 600 GB/s | - | 900 GB/s | 900 GB/s |
| PCIe | 4.0 x16 | 4.0 x16 | 5.0 x16 | - | 5.0 x16 |
| ECC | ✓ | ✓ | ✓ | ✓ | ✓ |
| MIG | ✓ | ✓ | - | - | - |
| 发布年份 | 2020 | 2020 | 2022 | 2022 | 2024 |
注:带号的数值为启用结构化稀疏后的算力
消费级/工作站 GPU 对比
| 参数 | RTX 3090 | RTX 4090 | A6000 | L40S |
|---|---|---|---|---|
| 架构 | Ampere | Ada Lovelace | Ampere | Ada Lovelace |
| CUDA Cores | 10496 | 16384 | 10752 | 18176 |
| Tensor Cores | 328 (3 代) | 512 (4 代) | 336 (3 代) | 568 (4 代) |
| 显存容量 | 24GB | 24GB | 48GB | 48GB |
| 显存类型 | GDDR6X | GDDR6X | GDDR6 | GDDR6 |
| 显存带宽 | 936 GB/s | 1008 GB/s | 768 GB/s | 864 GB/s |
| TDP | 350W | 450W | 300W | 350W |
| FP32 | 35.6 TFLOPS | 82.6 TFLOPS | 38.7 TFLOPS | 91.6 TFLOPS |
| FP16 | 142 TFLOPS | 330 TFLOPS | 155 TFLOPS | 366 TFLOPS |
| INT8 | 284 TOPS | 661 TOPS | 310 TOPS | 733 TOPS |
| NVLink | ✓ (600 GB/s) | - | ✓ (112 GB/s) | - |
| ECC | - | - | ✓ | ✓ |
| 视频编码 | 3× NVENC | 3× NVENC | 3× NVENC | 4× NVENC (AV1) |
| 定位 | 消费旗舰 | 消费旗舰 | 工作站 | 数据中心 |
边缘 AI GPU 对比
| 参数 | Jetson Orin NX | Jetson AGX Orin | L4 |
|---|---|---|---|
| CUDA Cores | 1024 | 2048 | 7424 |
| Tensor Cores | 32 (4 代) | 64 (4 代) | 232 (4 代) |
| 显存容量 | 16GB | 32GB/64GB | 24GB |
| 显存带宽 | 102 GB/s | 273 GB/s | 300 GB/s |
| TDP | 15W | 60W | 72W |
| FP16 | 100 TFLOPS | 200 TFLOPS | 147 TFLOPS |
| INT8 | 200 TOPS | 400 TOPS | 295 TOPS |
| 视频解码 | 2× 4K60 | 8× 4K60 | 4× 4K60 |
| 视频编码 | 2× 4K60 | 8× 4K60 | 4× 4K60 |
| 尺寸 | 70×45mm | 100×100mm | PCIe 半高 |
总结与行动建议
核心要点回顾
-
架构选择:
- 当前性价比最优:Ampere(A100)
- 性能优先:Hopper(H100)
- 未来部署:Blackwell(B200)
-
显存优先于算力:
- 大模型场景,带宽往往比算力更关键
- 容量不足无法运行,带宽不足只是慢
-
精度选择策略:
- 训练:TF32(Ampere)或 FP8(Hopper+)
- 推理:FP16/BF16 或 INT8/FP4
-
散热与电力:
- 风冷上限:约 350W TDP
- 液冷建议:≥700W TDP
- 电力冗余:至少 20%
下一步行动
- 明确需求:根据本文选型框架,确定你的具体需求
- 预算评估:考虑采购成本 + 运营成本(电费、散热)
- 环境准备:确认机房电力、散热条件
- PoC 测试:采购前进行概念验证测试
- 规模部署:根据 PoC 结果调整方案
延伸阅读
- Day 02:GPU 服务器架构
- Day 03:网络基础:以太网与 InfiniBand
- Day 06:测试环境搭建
- Day 14:LLM 推理引擎概览
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)