训练大模型，你真的选对 GPU 了吗？A/H/B系列（100，800）的区别与选择

m0_62238159

567人浏览 · 2026-03-20 15:06:53

m0_62238159 · 2026-03-20 15:06:53 发布

从 A100 到 B200，从 H800 到 H20——一篇写给工程师和研究者的多模态微调 & RFT 选卡指南。

1. 推理和训练，到底差在哪？

RTX 4090 跑推理飞快，但一到训练就哑火——这不是偶然，而是两种任务的物理需求完全不同。

做推理时，模型权重只需要加载一次到 GPU 显存里，然后反复使用。一张 GPU 就能独立工作，最大的瓶颈是"一次能放多少权重"（显存大小）和"一秒能算多少 token"（计算吞吐）。RTX 4090 有 24GB 显存，峰值算力高，做推理的性价比极高。

但训练完全是另一回事。

类比： 把训练想象成一个大型合唱团的排练——每个声部（GPU）唱完一段后，必须跟所有人对齐，哪里跑调了大家一起纠正，然后才能继续唱下一段。这个"对齐"的过程，就是梯度同步。合唱团人越多、同步越频繁，对"通讯线路"的要求就越高。

训练有三个推理没有的特殊挑战：

① 梯度同步
每训练一步，所有 GPU 都要把各自算出的"修正量"（梯度）汇总后广播给所有人。一个 70B 参数的模型，光是 BF16 格式的梯度就有 140GB——必须在每一步结束前传完，否则 GPU 就闲着等通信。

② 多卡并行
大模型根本塞不进一张卡。工程师会把模型切成几段（流水线并行）或把每层横向切开（张量并行），分布到多张卡上。卡和卡之间需要频繁交换中间计算结果（激活值）。

③ 长序列训练
多模态训练（图+文、视频+文）的输入序列动辄 8k 到 128k token，中间产生的激活值会把显存撑爆，必须再拆开分到多卡处理——这又是一轮卡间通信。

核心结论：训练的瓶颈不是"单卡算多快"，而是"多卡之间传数据有多快"。这就是为什么 A/H 系列专业卡对训练更好的根本原因。

2. 三代架构：Ampere → Hopper → Blackwell

NVIDIA 的数据中心 GPU 分三代，每代都有质的跳跃。

说之前我吗先讨论一个问题算力到底是什么？

算力（Compute / FLOPS）本质上是 GPU 每秒能完成多少次浮点数乘加运算。单位是 FLOPS（Floating Point Operations Per Second），训练大模型常用 TFLOPS（万亿次/秒）或 PFLOPS（千万亿次/秒）。

A100 / A800（Ampere 架构，2020）

指标	数值
显存	80GB HBM2e
显存带宽	2.0 TB/s
BF16 算力	312 TFLOPS
NVLink 带宽（A100）	600 GB/s ✅
NVLink 带宽（A800）	400 GB/s ⚠️（砍了 33%）

A100 是上一代训练主力，80GB 显存可以放下 34B 以下的模型（混合精度），微调 7B–34B 模型的性价比王者。

A800 是出口管制版，NVLink 砍了三分之一。单节点 8 卡训练差别不大，但大集群训练时通信会成为瓶颈。

H100 / H800（Hopper 架构，2022）

指标	数值
显存	80GB HBM3
显存带宽	3.35 TB/s
BF16 算力	989 TFLOPS
NVLink 带宽（H100）	900 GB/s
NVLink 带宽（H800）	400 GB/s

相比 A100，H100 有三个关键升级：

HBM 带宽从 2.0 → 3.35 TB/s
BF16 算力接近翻倍（稀疏下约 3.9×）
引入 Transformer Engine，FP8 混合精度可再提升 1.5–2×

H100 是当前大规模分布式训练的首选，也是 70B 多模态全量微调和大规模 RFT 的主流选择。

H800 是出口管制版，计算和显存带宽完整。DeepSeek-R1 就用这个集群训练的，但代价是写出了极其精细的并行策略代码。

H20（Hopper 特供版）

指标	数值
显存	96GB HBM3（比 H100 还大）
显存带宽	4.0 TB/s
BF16 算力	74 TFLOPS
NVLink 带宽	900 GB/s（完整）

H20 是个奇特的产品——显存最大、NVLink 完整，但算力只有 H100 的 1/13。本质是一张大显存推理卡，适合跑 70B 以内模型的推理，不适合训练。

B200（Blackwell 架构，2024）

指标	数值
显存	192GB HBM3e（翻倍！）
显存带宽	8.0 TB/s
BF16 算力	4.5 PFLOPS（约 4.5× H100）
NVLink 带宽	1800 GB/s

B200 是质的跨越。单卡 192GB 显存可以放下更大的模型，减少了流水线并行的需求，从而降低通信开销。对于超大多模态模型训练和 RFT，B200 是下一代主力。

3. 那条被砍掉的"高速公路"：NVLink 的秘密

你可能注意到，A800 和 H800 的计算能力、显存带宽和原版完全一样，只有 NVLink 被砍了。为什么这一项这么重要？

类比： 把每张 GPU 想象成一个工厂。HBM 带宽是工厂内部的传送带速度，决定工厂自己的生产效率。NVLink 则是工厂之间的高速公路——当你有 8 个工厂要协同生产一件超大产品时，工厂间运货的速度就决定了整体进度。公路砍成一半宽度，工厂再高效也没用。

4. 出口版

型号	被砍的部分	没动的部分	实际影响
A800	NVLink 带宽（-33%）	计算、HBM 带宽完整	单节点影响小，大集群明显
H800	NVLink 带宽（-56%）	计算、HBM 带宽完整	节点内尚可，跨节点严重
H20	算力（-93%）	HBM 带宽、NVLink 完整	不适合训练，只能做推理

⚠️ 很多人看到 H20 有 96GB 显存、完整的 NVLink，以为它是训练好卡——但它的 BF16 算力只有 74 TFLOPS，仅为 H100 的 1/13。本质上是一张大显存推理卡，用来跑训练会非常慢。

H800 的情况更微妙。DeepSeek 团队用 H800 集群训练了 DeepSeek-R1，他们的解法是：用极其精细的流水线并行策略，把大部分通信压缩在节点内完成，减少对跨节点 NVLink 的依赖。这需要很深的系统级工程能力，不是每个团队都能轻易复现的。

5. 多模态微调 & RFT 怎么选卡？

场景 A：7B–13B 多模态 LoRA / SFT 微调

维度	情况
显存需求	40–80GB，LoRA 更低
序列长度	4k–32k token
并行方式	数据并行为主，1–2 节点
NVLink 重要性	中等，不是瓶颈

推荐：A100 / A800

这个规模 A100/A800 性价比最优，升级到 H100 提升有限但成本翻倍。

场景 B：34B–70B 多模态全参微调（图文 / 视频）

维度	情况
显存需求	需要 4–16 张 80GB 卡
序列长度	8k–64k（视频更长）
并行方式	TP + PP + 序列并行混合
NVLink 重要性	⚠️ 高，直接影响实际效率

推荐：H100 SXM 首选，H800 SXM 次选（节点内）

此规模 NVLink 带宽成为关键瓶颈，H800 在多节点时劣势明显。

场景 C：RFT / GRPO / PPO 强化微调（长思维链）

维度	情况
显存需求	需同时放 actor + reference model
序列长度	8k–32k（长推理链）
特殊挑战	rollout 推理 + 反向传播交替进行
显存压力	远大于普通 SFT

推荐：H100 实用最优；B200 更优（显存够大可同卡放 actor + ref）

B200 的 192GB 显存可以把 actor 和 reference model 放同一批卡，大幅简化异步通信架构。

场景 D：100B+ 超大多模态模型 / 预训练

维度	情况
显存需求	需要大量 80GB 卡或 B200
序列长度	32k–256k（视频理解）
并行方式	4D 并行（DP+TP+PP+SP）
B200 优势	192GB 显存减少 PP 层数，降低 bubble ratio

推荐：B200 SXM 或大量 H100

B200 单卡显存翻倍意味着流水线并行的气泡比例（bubble ratio）大幅降低，整体训练效率更高。

6. 工程师容易忽略的四个细节

① Transformer Engine 和 FP8 训练

H100 引入了 Transformer Engine，支持 FP8 混合精度训练。在 Megatron-LM 或 NeMo 框架里开启后，实际训练吞吐可以再提升 30–50%。A100 没有这个路径，只能用 BF16。B200 进一步支持 FP4，理论上还能翻倍，但框架成熟度还需要时间。

💡 实用建议： 如果你用 H100 做训练，一定要确认框架是否开启了 FP8。很多人买了 H100 却用 BF16 跑，相当于买了跑车开着限速 60。

② MFU 才是真实效率指标

看 GPU 规格时，我们总盯着峰值算力（TFLOPS）。但实际训练中，卡经常在等通信而不是在算数。MFU（Model FLOP Utilization，模型算力利用率） 才是真正的效率指标。

H100 集群的实际 MFU 通常只有 40–55%，剩余时间在等 all-reduce 通信完成。NVLink 带宽是影响 MFU 的核心变量之一，这正是 H800 在大集群里吃亏的地方。

③ RFT 是推理 + 训练的叠加

做 GRPO / PPO 类的 RFT 时，每个训练步需要：

Rollout 阶段（推理）：用当前策略生成多个答案，需要高 HBM 带宽和大 KV cache
反向传播阶段（训练）：计算梯度并更新参数，需要高 NVLink 带宽

两个阶段对 GPU 的要求刚好相反，而且你需要在显存里同时保留当前策略（actor）和参考策略（reference model）。这意味着 RFT 的显存压力比普通 SFT 大得多。

④ 跨节点通信走 InfiniBand，不走 NVLink

NVLink 只连接同一台机器内的 GPU。多台服务器之间的通信走 InfiniBand（或 RoCE 以太网）。所以 H800 被砍的 NVLink 主要影响节点内的通信效率，跨节点通信取决于你的 IB 网络配置。

这也是为什么 DeepSeek 可以用 H800 集群训出好模型——他们重点优化了节点内通信，跨节点靠精细的并行切分来减少数据量。

7. 一句话总结

多模态微调选卡看 NVLink，不要只盯着显存大小和算力峰值。RFT 额外需要显存能同时放下 actor 和 ref model。

快速选卡参考表

你的情况	推荐选择	理由
7B–13B 微调，预算有限	A100 / A800	性价比最优，NVLink 不是瓶颈
70B 全参微调，海外资源	H100 SXM	NVLink 完整，FP8 可用
70B 全参微调，国内资源	H800 SXM	需精细并行策略绕开 NVLink 限制
RFT / GRPO 强化微调	H100 或 B200	显存要够放 actor + ref，带宽两阶段都需要
大显存推理部署	H20	96GB 显存够推理用，但别拿来训练
100B+ 或下一代预训练	B200 SXM	192GB 显存大幅减少并行开销

GPU 规格随产品迭代可能变化，以 NVIDIA 官方数据为准。

附：“节点"不等于"卡”。一个节点 = 一台物理服务器，里面通常插了 8张 GPU。

所以有三个层级：

卡内（单张GPU内部）：计算单元 ↔ 显存，走 HBM带宽
节点内（同一台服务器的8张卡之间）：走 NVLink
节点间（服务器 A 的卡 ↔ 服务器 B 的卡）：走 InfiniBand / 网线，NVLink 够不到

在这里插入图片描述

NVLink 被砍到 400 GB/s，影响的是同一台服务器内8张卡互相通信的速度。如果你只用1台服务器（8卡）训练，这个损失还能接受。但一旦跨服务器扩展到16卡、64卡，每台服务器内部的 NVLink 瓶颈会拖慢整个集群的梯度同步——因为数据先要在节点内汇聚，再走 InfiniBand 出去，节点内这段慢了，整体就卡住了。