大模型训练中的网络瓶颈分析

大家好,我是 展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。
图书作者:《ESP32-C3 物联网工程开发实战》
图书作者:《SwiftUI 入门,进阶与实战》
超级个体:COC上海社区主理人
特约讲师:大学讲师,谷歌亚马逊分享嘉宾
科技博主:华为HDE/HDG
我的博客内容涵盖广泛,主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告,同时也会提供产品优缺点分析、横向对比,并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。
展菲:您的前沿技术领航员
👋 大家好,我是展菲!
📱 全网搜索“展菲”,即可纵览我在各大平台的知识足迹。
每周定时推送干货满满的技术长文,从新兴框架的剖析到运维实战的复盘,助您技术进阶之路畅通无阻。
文章目录
引言
过去两年,大模型行业有一个非常有意思的现象。
很多团队一开始优化的都是:
GPU
CPU
显存
NVMe
结果训练跑起来以后发现:
GPU 利用率只有 30%
于是开始排查:
CUDA Kernel
FlashAttention
混合精度
折腾半天发现:
GPU 根本没在计算,而是在等待。
等待什么?很多时候答案只有两个字:
网络
越来越多团队发现,大模型训练真正的瓶颈,正在从:
单卡算力
变成:
集群通信
尤其当模型进入:
70B
671B
1T+
规模以后,整个系统已经从:
Compute Bound
慢慢变成:
Network Bound
很多时候:
GPU 越多
训练反而越慢
因此今天我们从 AI Infra 的角度,聊聊一个容易被忽略,但决定训练效率上限的问题:
为什么大模型训练越来越卡在网络?
一、为什么单机时代没有网络问题
早期训练模型:
ResNet
BERT
GPT-2
规模通常只有:
几亿参数
单机 8 卡就能完成。架构:
GPU1
GPU2
GPU3
...
GPU8
通过:
NVLink
进行通信。特点:
距离短
带宽高
延迟低
例如,NVLink:
900GB/s
远远高于:
100Gb Ethernet
≈12.5GB/s
因此那时候:
计算 >> 通信
网络几乎不是问题。
二、为什么模型越大,网络越重要
训练 GPT 类模型,本质上是:
Forward
↓
Backward
↓
Gradient Sync
其中,Forward:
本地计算
Backward:
本地计算
而真正跨节点发生的是:
Gradient AllReduce
例如,70B 模型:
140GB 参数(FP16)
一次同步梯度:
140GB
如果:
1024 张 GPU
每一步训练都需要:
数百 GB 的通信
于是训练流程变成:
Compute
↓
Wait Network
↓
Compute
↓
Wait Network
GPU 大量时间在等待。最终:
GPU 利用率下降
三、AllReduce:最大的通信杀手
几乎所有分布式训练都会遇到:
AllReduce
例如,8 张卡:
GPU1
GPU2
...
GPU8
每张卡都有:
Gradient
训练结束后需要:
求和
平均
同步
形成:
所有 GPU 参数一致
过程如下:
Ring AllReduce
GPU1 → GPU2
↓
GPU3
↓
GPU4
...
↓
GPU1
问题在于,通信量约为:
2 × (N-1)/N
GPU 数量越大:
通信时间越长
于是出现一个反直觉现象:
增加 GPU
训练不加速
甚至:
变慢
因为:
Network > Compute
四、为什么 GPU 越多扩展效率越差
理论上:
8卡
↓
16卡
↓
32卡
速度应该:
线性提升
现实往往是:
| GPU数量 | 理论加速 | 实际加速 |
|---|---|---|
| 8 | 8x | 7.8x |
| 64 | 64x | 52x |
| 256 | 256x | 160x |
| 1024 | 1024x | 500x |
原因在于,计算复杂度,几乎不变:
O(1)
但通信复杂度,不断增长。最终:
强扩展效率下降
这也是为什么:
Scale-up
比:
Scale-out
更受欢迎,大家更喜欢:
单机8卡
↓
单机16卡
↓
单机72卡
而不是:
几百台服务器
五、PCIe:最容易被忽略的瓶颈
很多人觉得:
网络瓶颈
=
IB 网络
其实不一定,服务器内部还有:
CPU
PCIe
GPU
数据路径:
GPU
↓
PCIe
↓
CPU
↓
NIC
↓
网络
PCIe Gen4:
64GB/s
而 H100 算力:
1000TFLOPS+
因此很容易出现:
GPU等待PCIe
形成:
PCIe Bound
所以,很多 AI 服务器大量采用:
NVSwitch
绕过 CPU,形成:
GPU ↔ GPU
直接互联。
六、MoE 为什么更依赖网络
Dense Model,每个 GPU 负责:
固定 Layer
通信比较规律,MoE 模型不同。
例如,128 个 Expert,Token 到来时:
Router
↓
Expert17
↓
Expert82
↓
Expert33
Expert 分散在不同节点,于是每一步都会发生:
All-to-All
通信,相比:
AllReduce
更加恐怖,因为:
数据随机
无法预测
无法连续
网络压力瞬间增加。
这也是为什么:DeepSeek V3、Mixtral、Qwen-MoE 都极度依赖:
RDMA + InfiniBand
七、Pipeline Parallel 最大的问题也是网络
PP,将模型切成:
Stage1
↓
Stage2
↓
Stage3
↓
Stage4
每层部署到不同 GPU,Forward:
Activation
需要不断传递,Backward:
Gradient
又要反向传递,于是形成:
Bubble
现象。
如果网络慢,整个流水线停顿。表现为:
GPU0 100%
GPU1 80%
GPU7 30%
利用率严重失衡。因此,PP 的核心优化其实是:
减少通信等待
八、为什么 InfiniBand 成为 AI 集群标配
普通以太网:
TCP/IP
路径:
GPU
↓
CPU
↓
Kernel
↓
NIC
↓
Network
存在:
上下文切换
协议栈开销
延迟较高。而 InfiniBand,支持:
RDMA
实现:
GPU Memory
↓
Remote GPU Memory
直接访问,绕过:
CPU
Kernel
延迟下降:
μs级
带宽达到:
400Gb/s
800Gb/s
因此,现代 AI 集群几乎都在使用:
IB + RDMA
架构。
九、为什么 NCCL 如此重要
训练时真正执行通信的,并不是 PyTorch。而是:
NCCL
负责:
AllReduce
AllGather
ReduceScatter
AllToAll
它决定:
GPU 如何走网络
例如,自动选择:
Ring
Tree
Hierarchical
算法,还会根据:
NVLink
PCIe
IB
动态调优。
很多时候,训练性能差 20%,根本不是模型问题。而是:
NCCL 参数没调好
例如:
NCCL_IB_HCA
NCCL_SOCKET_IFNAME
NCCL_P2P_LEVEL
都会影响性能。
十、未来最大的瓶颈:East-West Traffic
训练集群越来越大例如:
10000 GPU
甚至:
100000 GPU
此时网络流量不再是:
North-South
而是:
East-West
即:
GPU ↔ GPU
节点 ↔ 节点
大量横向流量。
特点:高带宽、低延迟、持续传输
因此未来 AI 数据中心竞争核心,不再只是:
GPU 数量
而是:
网络拓扑
包括:
Fat Tree
Dragonfly
Clos
NVLink Domain
设计。
十一、下一代训练系统正在消灭网络等待
目前行业最热门方向包括:
通信计算重叠(Overlap)
把:
Backward
和:
AllReduce
同时执行,实现:
Hide Communication
Gradient Compression
FP16:
↓
FP8
↓
INT8
减少传输量。
ZeRO 参数:
Shard
减少同步数据。
Sequence Parallel
减少 Activation 传输。
Expert Parallel
局部通信。
In-network Computing
利用交换机完成:
Reduce
操作,例如:
NVIDIA SHARP
进一步降低延迟。
总结
如果用一句话总结大模型训练中的网络瓶颈:
模型越来越大,但光速没有变。
从工程角度来看,训练网络瓶颈主要来自:
AllReduce
AllToAll
Pipeline Activation
PCIe
RDMA
NCCL
East-West Traffic
过去限制 AI 的是:
算力不足
现在限制 AI 的越来越是:
通信效率
未来大模型训练竞争的核心,很可能不再是:
谁 GPU 更多
而是:
谁能让上万张 GPU 像一张 GPU 一样高效协同。
因为在万卡时代,真正昂贵的已经不是 FLOPS。而是:
等待。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)