大模型训练中的网络瓶颈分析

Swift社区

39人浏览 · 2026-06-22 13:24:19

Swift社区 · 2026-06-22 13:24:19 发布

在这里插入图片描述

网罗开发 （小红书、快手、视频号同名）

大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。

图书作者：《ESP32-C3 物联网工程开发实战》
图书作者：《SwiftUI 入门，进阶与实战》
超级个体：COC上海社区主理人
特约讲师：大学讲师，谷歌亚马逊分享嘉宾
科技博主：华为HDE/HDG

我的博客内容涵盖广泛，主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告，同时也会提供产品优缺点分析、横向对比，并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。

展菲：您的前沿技术领航员
👋 大家好，我是展菲！
📱 全网搜索“展菲”，即可纵览我在各大平台的知识足迹。
每周定时推送干货满满的技术长文，从新兴框架的剖析到运维实战的复盘，助您技术进阶之路畅通无阻。

文章目录

引言

过去两年，大模型行业有一个非常有意思的现象。

很多团队一开始优化的都是：

GPU

CPU

显存

NVMe

结果训练跑起来以后发现：

GPU 利用率只有 30%

于是开始排查：

CUDA Kernel

FlashAttention

混合精度

折腾半天发现：

GPU 根本没在计算，而是在等待。

等待什么？很多时候答案只有两个字：

网络

越来越多团队发现，大模型训练真正的瓶颈，正在从：

单卡算力

变成：

集群通信

尤其当模型进入：

70B

671B

1T+

规模以后，整个系统已经从：

Compute Bound

慢慢变成：

Network Bound

很多时候：

GPU 越多

训练反而越慢

因此今天我们从 AI Infra 的角度，聊聊一个容易被忽略，但决定训练效率上限的问题：

为什么大模型训练越来越卡在网络？

一、为什么单机时代没有网络问题

早期训练模型：

ResNet

BERT

GPT-2

规模通常只有：

几亿参数

单机 8 卡就能完成。架构：

GPU1

GPU2

GPU3

...

GPU8

通过：

NVLink

进行通信。特点：

距离短

带宽高

延迟低

例如，NVLink：

900GB/s

远远高于：

100Gb Ethernet
≈12.5GB/s

因此那时候：

计算 >> 通信

网络几乎不是问题。

二、为什么模型越大，网络越重要

训练 GPT 类模型，本质上是：

Forward

↓

Backward

↓

Gradient Sync

其中，Forward：

本地计算

Backward：

本地计算

而真正跨节点发生的是：

Gradient AllReduce

例如，70B 模型：

140GB 参数（FP16）

一次同步梯度：

140GB

如果：

1024 张 GPU

每一步训练都需要：

数百 GB 的通信

于是训练流程变成：

Compute

↓

Wait Network

↓

Compute

↓

Wait Network

GPU 大量时间在等待。最终：

GPU 利用率下降

三、AllReduce：最大的通信杀手

几乎所有分布式训练都会遇到：

AllReduce

例如，8 张卡：

GPU1

GPU2

...

GPU8

每张卡都有：

Gradient

训练结束后需要：

求和

平均

同步

形成：

所有 GPU 参数一致

过程如下：

Ring AllReduce

GPU1 → GPU2

↓

GPU3

↓

GPU4

...

↓

GPU1

问题在于，通信量约为：

2 × (N-1)/N

GPU 数量越大：

通信时间越长

于是出现一个反直觉现象：

增加 GPU

训练不加速

甚至：

变慢

因为：

Network > Compute

四、为什么 GPU 越多扩展效率越差

理论上：

8卡

↓

16卡

↓

32卡

速度应该：

线性提升

现实往往是：

GPU数量	理论加速	实际加速
8	8x	7.8x
64	64x	52x
256	256x	160x
1024	1024x	500x

原因在于，计算复杂度，几乎不变：

O(1)

但通信复杂度，不断增长。最终：

强扩展效率下降

这也是为什么：

Scale-up

比：

Scale-out

更受欢迎，大家更喜欢：

单机8卡

↓

单机16卡

↓

单机72卡

而不是：

几百台服务器

五、PCIe：最容易被忽略的瓶颈

很多人觉得：

网络瓶颈
=
IB 网络

其实不一定，服务器内部还有：

CPU

PCIe

GPU

数据路径：

GPU

↓

PCIe

↓

CPU

↓

NIC

↓

网络

PCIe Gen4：

64GB/s

而 H100 算力：

1000TFLOPS+

因此很容易出现：

GPU等待PCIe

形成：

PCIe Bound

所以，很多 AI 服务器大量采用：

NVSwitch

绕过 CPU，形成：

GPU ↔ GPU

直接互联。

六、MoE 为什么更依赖网络

Dense Model，每个 GPU 负责：

固定 Layer

通信比较规律，MoE 模型不同。

例如，128 个 Expert，Token 到来时：

Router

↓

Expert17

↓

Expert82

↓

Expert33

Expert 分散在不同节点，于是每一步都会发生：

All-to-All

通信，相比：

AllReduce

更加恐怖，因为：

数据随机

无法预测

无法连续

网络压力瞬间增加。

这也是为什么：DeepSeek V3、Mixtral、Qwen-MoE 都极度依赖：

RDMA + InfiniBand

七、Pipeline Parallel 最大的问题也是网络

PP，将模型切成：

Stage1

↓

Stage2

↓

Stage3

↓

Stage4

每层部署到不同 GPU，Forward：

Activation

需要不断传递，Backward：

Gradient

又要反向传递，于是形成：

Bubble

现象。

如果网络慢，整个流水线停顿。表现为：

GPU0 100%

GPU1 80%

GPU7 30%

利用率严重失衡。因此，PP 的核心优化其实是：

减少通信等待

八、为什么 InfiniBand 成为 AI 集群标配

普通以太网：

TCP/IP

路径：

GPU

↓

CPU

↓

Kernel

↓

NIC

↓

Network

存在：

上下文切换

协议栈开销

延迟较高。而 InfiniBand，支持：

RDMA

实现：

GPU Memory

↓

Remote GPU Memory

直接访问，绕过：

CPU

Kernel

延迟下降：

μs级

带宽达到：

400Gb/s

800Gb/s

因此，现代 AI 集群几乎都在使用：

IB + RDMA

架构。

九、为什么 NCCL 如此重要

训练时真正执行通信的，并不是 PyTorch。而是：

NCCL

负责：

AllReduce

AllGather

ReduceScatter

AllToAll

它决定：

GPU 如何走网络

例如，自动选择：

Ring

Tree

Hierarchical

算法，还会根据：

NVLink

PCIe

IB

动态调优。

很多时候，训练性能差 20%，根本不是模型问题。而是：

NCCL 参数没调好

例如：

NCCL_IB_HCA

NCCL_SOCKET_IFNAME

NCCL_P2P_LEVEL

都会影响性能。

十、未来最大的瓶颈：East-West Traffic

训练集群越来越大例如：

10000 GPU

甚至：

100000 GPU

此时网络流量不再是：

North-South

而是：

East-West

即：

GPU ↔ GPU

节点 ↔ 节点


大量横向流量。

特点：高带宽、低延迟、持续传输

因此未来 AI 数据中心竞争核心，不再只是：

GPU 数量

而是：

网络拓扑

包括：

Fat Tree

Dragonfly

Clos

NVLink Domain

设计。

十一、下一代训练系统正在消灭网络等待

目前行业最热门方向包括：

通信计算重叠（Overlap）

把：

Backward

和：

AllReduce

同时执行，实现：

Hide Communication

Gradient Compression

FP16：

↓

FP8

↓

INT8

减少传输量。

ZeRO 参数：

Shard

减少同步数据。

Sequence Parallel

减少 Activation 传输。

Expert Parallel

局部通信。

In-network Computing

利用交换机完成：

Reduce

操作，例如：

NVIDIA SHARP

进一步降低延迟。

总结

如果用一句话总结大模型训练中的网络瓶颈：

模型越来越大，但光速没有变。

从工程角度来看，训练网络瓶颈主要来自：

AllReduce

AllToAll

Pipeline Activation

PCIe

RDMA

NCCL

East-West Traffic

过去限制 AI 的是：

算力不足

现在限制 AI 的越来越是：

通信效率

未来大模型训练竞争的核心，很可能不再是：

谁 GPU 更多

而是：

谁能让上万张 GPU 像一张 GPU 一样高效协同。

因为在万卡时代，真正昂贵的已经不是 FLOPS。而是：

等待。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

微软CTO Kevin Scott深度访谈：AI的下一站是什么？

AtomGit开源社区

B2B销售痛点怎么破？AI原生CRM如何重塑B2B客户关系管理全链路

AtomGit开源社区

OpenClaw 2.7.9 评测报告：本地运行、零配置、双平台支持

AtomGit开源社区

所有评论(0)

查看更多评论

Swift社区

@qq_36478920

已为社区贡献123条内容

大模型训练中的网络瓶颈分析

Swift社区

文章目录

引言

一、为什么单机时代没有网络问题

二、为什么模型越大，网络越重要

三、AllReduce：最大的通信杀手

四、为什么 GPU 越多扩展效率越差

五、PCIe：最容易被忽略的瓶颈

六、MoE 为什么更依赖网络

七、Pipeline Parallel 最大的问题也是网络

八、为什么 InfiniBand 成为 AI 集群标配

九、为什么 NCCL 如此重要

十、未来最大的瓶颈：East-West Traffic

十一、下一代训练系统正在消灭网络等待

通信计算重叠（Overlap）

Gradient Compression

ZeRO 参数：

Sequence Parallel

Expert Parallel

In-network Computing

总结

所有评论(0)

温馨提示：您尚未绑定手机号

Swift社区