在这里插入图片描述

网罗开发 (小红书、快手、视频号同名)

  大家好,我是 展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。

图书作者:《ESP32-C3 物联网工程开发实战》
图书作者:《SwiftUI 入门,进阶与实战》
超级个体:COC上海社区主理人
特约讲师:大学讲师,谷歌亚马逊分享嘉宾
科技博主:华为HDE/HDG

我的博客内容涵盖广泛,主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告,同时也会提供产品优缺点分析、横向对比,并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。

展菲:您的前沿技术领航员
👋 大家好,我是展菲!
📱 全网搜索“展菲”,即可纵览我在各大平台的知识足迹。
每周定时推送干货满满的技术长文,从新兴框架的剖析到运维实战的复盘,助您技术进阶之路畅通无阻。


引言

过去两年,大模型行业有一个非常有意思的现象。

很多团队一开始优化的都是:

GPU

CPU

显存

NVMe

结果训练跑起来以后发现:

GPU 利用率只有 30%

于是开始排查:

CUDA Kernel

FlashAttention

混合精度

折腾半天发现:

GPU 根本没在计算,而是在等待。

等待什么?很多时候答案只有两个字:

网络

越来越多团队发现,大模型训练真正的瓶颈,正在从:

单卡算力

变成:

集群通信

尤其当模型进入:

70B

671B

1T+

规模以后,整个系统已经从:

Compute Bound

慢慢变成:

Network Bound

很多时候:

GPU 越多

训练反而越慢

因此今天我们从 AI Infra 的角度,聊聊一个容易被忽略,但决定训练效率上限的问题:

为什么大模型训练越来越卡在网络?

一、为什么单机时代没有网络问题

早期训练模型:

ResNet

BERT

GPT-2

规模通常只有:

几亿参数

单机 8 卡就能完成。架构:

GPU1

GPU2

GPU3

...

GPU8

通过:

NVLink

进行通信。特点:

距离短

带宽高

延迟低

例如,NVLink:

900GB/s

远远高于:

100Gb Ethernet
≈12.5GB/s

因此那时候:

计算 >> 通信

网络几乎不是问题。

二、为什么模型越大,网络越重要

训练 GPT 类模型,本质上是:

Forward

↓

Backward

↓

Gradient Sync

其中,Forward:

本地计算

Backward:

本地计算

而真正跨节点发生的是:

Gradient AllReduce

例如,70B 模型:

140GB 参数(FP16)

一次同步梯度:

140GB

如果:

1024 张 GPU

每一步训练都需要:

数百 GB 的通信

于是训练流程变成:

Compute

↓

Wait Network

↓

Compute

↓

Wait Network

GPU 大量时间在等待。最终:

GPU 利用率下降

三、AllReduce:最大的通信杀手

几乎所有分布式训练都会遇到:

AllReduce

例如,8 张卡:

GPU1

GPU2

...

GPU8

每张卡都有:

Gradient

训练结束后需要:

求和

平均

同步

形成:

所有 GPU 参数一致

过程如下:

Ring AllReduce
GPU1 → GPU2

↓

GPU3

↓

GPU4

...

↓

GPU1

问题在于,通信量约为:

2 × (N-1)/N

GPU 数量越大:

通信时间越长

于是出现一个反直觉现象:

增加 GPU

训练不加速

甚至:

变慢

因为:

Network > Compute

四、为什么 GPU 越多扩展效率越差

理论上:

8卡

↓

16卡

↓

32卡

速度应该:

线性提升

现实往往是:

GPU数量 理论加速 实际加速
8 8x 7.8x
64 64x 52x
256 256x 160x
1024 1024x 500x

原因在于,计算复杂度,几乎不变:

O(1)

但通信复杂度,不断增长。最终:

强扩展效率下降

这也是为什么:

Scale-up

比:

Scale-out

更受欢迎,大家更喜欢:

单机8卡

↓

单机16卡

↓

单机72卡

而不是:

几百台服务器

五、PCIe:最容易被忽略的瓶颈

很多人觉得:

网络瓶颈
=
IB 网络

其实不一定,服务器内部还有:

CPU

PCIe

GPU

数据路径:

GPU

↓

PCIe

↓

CPU

↓

NIC

↓

网络

PCIe Gen4:

64GB/s

而 H100 算力:

1000TFLOPS+

因此很容易出现:

GPU等待PCIe

形成:

PCIe Bound

所以,很多 AI 服务器大量采用:

NVSwitch

绕过 CPU,形成:

GPU ↔ GPU

直接互联。

六、MoE 为什么更依赖网络

Dense Model,每个 GPU 负责:

固定 Layer

通信比较规律,MoE 模型不同。

例如,128 个 Expert,Token 到来时:

Router

↓

Expert17

↓

Expert82

↓

Expert33

Expert 分散在不同节点,于是每一步都会发生:

All-to-All

通信,相比:

AllReduce

更加恐怖,因为:

数据随机

无法预测

无法连续

网络压力瞬间增加。

这也是为什么:DeepSeek V3、Mixtral、Qwen-MoE 都极度依赖:

RDMA + InfiniBand

七、Pipeline Parallel 最大的问题也是网络

PP,将模型切成:

Stage1

↓

Stage2

↓

Stage3

↓

Stage4

每层部署到不同 GPU,Forward:

Activation

需要不断传递,Backward:

Gradient

又要反向传递,于是形成:

Bubble

现象。

如果网络慢,整个流水线停顿。表现为:

GPU0 100%

GPU1 80%

GPU7 30%

利用率严重失衡。因此,PP 的核心优化其实是:

减少通信等待

八、为什么 InfiniBand 成为 AI 集群标配

普通以太网:

TCP/IP

路径:

GPU

↓

CPU

↓

Kernel

↓

NIC

↓

Network

存在:

上下文切换

协议栈开销

延迟较高。而 InfiniBand,支持:

RDMA

实现:

GPU Memory

↓

Remote GPU Memory

直接访问,绕过:

CPU

Kernel

延迟下降:

μs级

带宽达到:

400Gb/s

800Gb/s

因此,现代 AI 集群几乎都在使用:

IB + RDMA

架构。

九、为什么 NCCL 如此重要

训练时真正执行通信的,并不是 PyTorch。而是:

NCCL

负责:

AllReduce

AllGather

ReduceScatter

AllToAll

它决定:

GPU 如何走网络

例如,自动选择:

Ring

Tree

Hierarchical

算法,还会根据:

NVLink

PCIe

IB

动态调优。

很多时候,训练性能差 20%,根本不是模型问题。而是:

NCCL 参数没调好

例如:

NCCL_IB_HCA

NCCL_SOCKET_IFNAME

NCCL_P2P_LEVEL

都会影响性能。

十、未来最大的瓶颈:East-West Traffic

训练集群越来越大例如:

10000 GPU

甚至:

100000 GPU

此时网络流量不再是:

North-South

而是:

East-West

即:

GPU ↔ GPU

节点 ↔ 节点


大量横向流量。

特点:高带宽、低延迟、持续传输

因此未来 AI 数据中心竞争核心,不再只是:

GPU 数量

而是:

网络拓扑

包括:

Fat Tree

Dragonfly

Clos

NVLink Domain

设计。

十一、下一代训练系统正在消灭网络等待

目前行业最热门方向包括:

通信计算重叠(Overlap)

把:

Backward

和:

AllReduce

同时执行,实现:

Hide Communication

Gradient Compression

FP16:

FP8

INT8

减少传输量。

ZeRO 参数:

Shard

减少同步数据。

Sequence Parallel

减少 Activation 传输。

Expert Parallel

局部通信。

In-network Computing

利用交换机完成:

Reduce

操作,例如:

NVIDIA SHARP

进一步降低延迟。

总结

如果用一句话总结大模型训练中的网络瓶颈:

模型越来越大,但光速没有变。

从工程角度来看,训练网络瓶颈主要来自:

AllReduce

AllToAll

Pipeline Activation

PCIe

RDMA

NCCL

East-West Traffic

过去限制 AI 的是:

算力不足

现在限制 AI 的越来越是:

通信效率

未来大模型训练竞争的核心,很可能不再是:

谁 GPU 更多

而是:

谁能让上万张 GPU 像一张 GPU 一样高效协同。

因为在万卡时代,真正昂贵的已经不是 FLOPS。而是:

等待。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐