在这里插入图片描述

本文基于以下三份报告进行汇总、解释和二次整理:

  • 华为《超节点发展报告》
  • 中兴《超节点技术白皮书》
  • H3C《超节点技术白皮书》

本文你会看懂什么

  • DPTPPPEPCP 映射成具体通信原语,而不是停留在并行概念。
  • 为什么同一个训练任务里,不同通信流应该落到不同网络层:Scale-Up、Scale-Out、Frontend。
  • 训练平台做拓扑感知调度时,应该看哪些通信路径和性能指标。

这篇文章从训练系统视角拆通信路径。

先解释

大模型并行通信 的意思是:当一个模型、一个 batch 或一段上下文被拆到多张 GPU/NPU 上执行时,这些设备之间为了保持计算结果一致、传递中间状态、同步参数或交换 token 而产生的数据流

它要解决的不是“怎么把网线插得更快”,而是一个更具体的问题:模型被拆开之后,哪些数据必须在设备之间移动,移动发生在训练 step 的哪个位置,能不能和计算重叠,以及它对拓扑、带宽和时延有多敏感。

可以先用下面这张表建立直觉。

并行方式 可以先这样理解 最典型的通信压力
DP 多份模型副本各算一批数据 梯度同步、All-Reduce
TP 把一层里的矩阵计算切到多张卡 层内高频同步、低时延通信
PP 把模型层切成多个阶段 阶段间激活值和梯度传递
EP 把不同专家放到不同设备 token 分发、All-to-All
CP/SP 把长序列或上下文维度切开 Attention 相关状态交换

所以本文讨论的“并行通信”,不是单一网络流量,而是一组由模型切分方式决定的通信模式。超节点的价值,也要放到这些通信模式里看。

关键术语先解释

术语 技术含义 报告中的使用方式
DP Data Parallelism,数据并行。多张卡各自处理不同数据样本,再同步梯度或参数状态。 华为报告第 11 页把 DP 列入训练并行维度,用于解释总卡数和通信量增长。
TP Tensor Parallelism,张量并行。把单层里的矩阵或张量维度切到多张卡。 H3C 术语表将 TP 解释为把模型张量维度拆分到不同设备并行执行。
PP Pipeline Parallelism,流水线并行。把模型层切成多个 stage。 中兴报告将 PP 归为 Scale-Out 更适合承载的相对低性能要求流量。
EP Expert Parallelism,专家并行。把 MoE 中不同专家放到不同设备。 H3C 术语表说明 EP 常用于 MoE,把不同专家分配到不同计算节点。
CP/SP 上下文并行/序列并行。面向长序列,把上下文或序列维度切分。 华为报告将 CP 与 TP、PP、DP 一起列入训练并行组合。
All-Reduce 多设备先归约再把结果分发给所有设备,常用于梯度同步。 H3C 报告通信原语章节把 All-Reduce 作为分布式训练全局梯度同步原语。
All-to-All 多设备之间互相交换不同数据,常用于 MoE 专家分发。 H3C 报告将 All-to-All 标注为 MoE 数据分发的典型通信原语。
HBD High-Bandwidth Domain,高带宽域。 中兴报告将 Scale-Up 网络承载 TP/EP 的通信区域定义为 HBD。
MFU Model FLOPs Utilization,模型有效算力利用率。 H3C 报告把 MFU 作为衡量大规模训练通信效率的重要指标。

报告中的技术表述

这一篇主要依赖三条报告表述来建立分析框架:

来源 技术表述 本文如何使用
华为报告第 11 页 训练集群总卡数由 DP、TP、PP、CP 等并行维度相乘而来,扩展并行维度会放大跨节点通信。 用来解释通信量为什么会随模型和并行策略放大。
华为报告第 18 页 传统八卡服务器受 PCIe 带宽与拓扑限制,TP/CP/EP 等并行域容易被限制在单机内;64 卡 EP 并行会遇到跨机通信瓶颈。 用来解释为什么超节点要扩大 Scale-Up/HBD。
中兴报告第 23-25 页 Scale-Up 网络承载 TP、EP 等高性能通信流量,Scale-Out 网络承载 DP、PP 等相对低性能要求流量。 用来建立后文“通信分层”的主线。
H3C 报告网络分层章节 Type 3 Scale-Up 网络承载 TP/EP 流量,Type 2 Scale-Out 网络负责跨 HBD 集群扩展。 用来补充工程组网和调度视角。

一个训练 step 里,GPU/NPU 不是只做矩阵乘法,还会持续发生参数同步中间结果交换激活值传递专家分发序列切分通信。超节点的价值,要从这些通信的频率数据量同步强度拓扑敏感度中看。

华为报告给出了不同并行模式下的通信特征表。

在这里插入图片描述

图源:华为《超节点发展报告》第 11 页,表 1。

这张表建议重点看三列信息:第一是通信发生在哪个并行维度,第二是通信是不是高频同步,第三是通信是否容易跨出单机边界。对于网络设计来说,最敏感的不是“总数据量最大”的流,而是那些发生频率高、同步要求强、难以被计算掩盖的流。

先看训练通信为什么会失控

华为报告第 11 页给了一个很适合放进技术分享的判断:训练集群总卡数通常是 DPTPPPCP 等并行维度的乘积。固定全局 batch size 时,单纯增加 DP 会让每卡 micro-batch 变小,计算效率下降;继续扩大 TP、PP、CP,又会把更多通信推到跨节点路径上。

报告还用 GPT-3 到 GPT-4 的扩展做了量级对比:参数规模增加 10.8 倍时,总集合通信增加 34.1 倍,跨节点 RDMA 和光电转换增加 49.3 倍。这个数字说明,模型变大后,通信增长不是“跟着参数线性变大”那么简单,而是会被并行切分方式进一步放大。

华为报告第 18 页则给出另一个关键现象:传统八卡服务器受 PCIe 带宽和拓扑限制,TP/CP/EP 等并行维度容易被限制在单机内;而 DeepSeek V3、Qwen3 等 MoE 模型使用 64 卡 EP 并行时,传统跨机通信会成为瓶颈。

在这里插入图片描述

图源:华为《超节点发展报告》第 18 页。用途:说明更大的 Scale-Up 域如何支撑 TP、CP、EP 等并行策略扩展。

这张图的技术含义是:当并行域从单机八卡扩大到更大的高带宽域时,模型切分策略会多出新的搜索空间。TP、CP、EP 不再天然受限于单机拓扑,但前提是域内带宽、时延和拥塞控制能够支撑这些通信进入关键路径。

中兴报告把这个问题映射到网络分层:Scale-Up 网络承载 TP、EP 等高性能通信流量,Scale-Out 网络承载 DP、PP 等相对低性能要求流量。随着模型规模增长,TP/EP 规模扩大,对 HBD 的需求也会提高,但收益存在边际效应。

TP、EP 这类对低时延和高带宽更敏感的流量,被放进 Scale-Up/HBD;DP、PP 这类更适合分层扩展的流量,可以更多交给 Scale-Out。后面的调度策略,本质就是把并行组放到合适的通信域内。

一、先把训练通信分成三类

从网络设计角度,不建议先按 DP/TP/PP 分类,而应先按通信特征分类。

通信类型 典型来源 网络敏感点 放置倾向
强同步高频通信 TP、EP、部分 CP/SP 时延、抖动、拓扑跳数 Scale-Up/HBD
大流量同步通信 DP、ZeRO 类梯度/状态同步 带宽、拥塞、重叠能力 Scale-Out 或跨 HBD
阶段传递通信 PP、Prefill/Decode 切分 相邻阶段路径、气泡 近拓扑放置

这个分类更接近工程判断。

如果某类通信在每层都发生,它对时延敏感;如果只在 step 边界发生,它更可能被带宽和重叠能力支配;如果通信在阶段之间发生,拓扑距离会影响流水线气泡。

二、DP:All-Reduce 不是只看总带宽

DP 的典型通信是梯度 All-Reduce

从通信库角度看,All-Reduce 可以用 Ring、Tree、Hierarchical 等算法实现。不同算法对拓扑的要求不同。

算法思路 特点 适用关注点
Ring 带宽利用率高,路径规则 大消息、链路稳定
Tree 步数少,聚合结构清晰 较低时延和层级拓扑
Hierarchical 先域内归约,再跨域归约 超节点/多 HBD 场景

DP 可以跨超节点扩展,但跨域 All-Reduce 不能无脑放大。需要关注:

  • 梯度桶大小。
  • 通信与反向计算是否重叠。
  • 跨 HBD 链路是否成为瓶颈。
  • 是否做分层 All-Reduce。
  • Scale-Out 网络是否承载了过多其他流量。

所以 DP 不一定最依赖 Scale-Up,但非常依赖稳定的 Scale-Out 和通信库分层策略。

三、TP:层内通信更像关键路径

TP 把单层张量计算切到多张卡上。

它最麻烦的地方不是数据量一定最大,而是通信进入了层内关键路径。一次 forward/backward 里,每层都可能发生张量切片之间的同步。

TP 典型通信包括:

  • Column/Row Parallel Linear 后的结果聚合。
  • Attention/MLP 切分后的中间结果同步。
  • 小粒度但高频的 P2P 或集合通信。

这类通信有两个工程特征:

  1. 等待时间很难被完全隐藏。
  2. 对 P2P 时延和拓扑跳数非常敏感。

这就是中兴报告强调 HBD 承载 TP、EP 等高性能通信流量的原因。

如果 TP 组跨越普通 Scale-Out 网络,即使平均带宽够,尾时延也会进入每一层计算路径。

四、PP:气泡来自计算不均和链路不均

PP 把模型层切成多个阶段。它的主要问题是流水线气泡。

气泡来源不只是一段算得慢,也可能是一段传得慢。

PP 通信路径主要是:

  1. 前向阶段传递激活值。
  2. 反向阶段传递梯度。
  3. micro-batch 在不同 stage 间排队。

工程上需要关注:

  • stage 计算量是否均衡。
  • 相邻 stage 是否在拓扑上足够近。
  • 激活值大小是否导致链路压力。
  • micro-batch 数量是否足够填满流水线。

PP 不一定要求所有 stage 都在同一个 HBD 内,但相邻阶段不应被调度到高时延路径上。

五、EP:All-to-All 是 MoE 的网络核心

EP 来自专家并行,通常和 MoE 绑定。

它的典型路径是:

  1. Router 计算 token 到专家的映射。
  2. Dispatch 阶段把 token 发送到专家所在设备。
  3. 专家计算。
  4. Combine 阶段把结果聚合回来。

这里的核心通信是 All-to-All

All-to-All 与 All-Reduce 最大的差异是流量分布不可预测。热门专家、batch 形态、路由策略都会改变流量热点。

因此 EP 需要关注:

  • 专家是否按拓扑放置。
  • Dispatch/Combine 是否跨 HBD。
  • All-to-All 是否产生局部热点。
  • 通信库是否有拓扑感知。
  • 是否有在网计算能力支持 Multicast/Reduce/Combine。

MoE 会在下一篇单独展开,这里先记住一个判断:EP 是最能暴露超节点通信组织能力的并行方式之一。

六、CP/SP:长序列把通信和缓存绑在一起

CPSP 的背景是长上下文。

当序列长度很长,单卡放不下完整上下文相关状态,就需要把序列维度切开。这样会产生跨序列块通信。

这类通信的特点是:

  • 和 Attention 访问模式绑定。
  • 和激活值、KV Cache、内存层级绑定。
  • 对计算和内存访问同时敏感。

所以 CP/SP 不只是网络问题,也会把统一内存、CXL、KV Cache 池化拉进来。

七、网络分层:Scale-Up、Scale-Out、Frontend

中兴报告的 Scale-Up/Scale-Out 融合图,非常适合解释为什么 AI 集群不是一张网解决所有问题。

在这里插入图片描述

图源:中兴《超节点技术白皮书》第 25 页,图 2-3。

从训练通信映射看,可以得到一个实用规则:

网络层 适合承载 不适合承载
Scale-Up TP、EP、P2P、高频集合通信 大范围低频扩展流量
Scale-Out DP、跨 HBD 扩展、跨超节点 PP 层内高频同步通信
Frontend 管理、存储、业务访问 训练关键路径通信

华为报告中的通信范式演变图,说明基础计算单元正在从单服务器走向超节点。

在这里插入图片描述

图源:华为《超节点发展报告》第 13 页,图 3.1。

H3C 报告中的 Scale up 拓扑和 GPU 拓扑,则对应调度器需要感知的物理结构。

在这里插入图片描述

图源:H3C《超节点技术白皮书》第 235 页,图 155。

在这里插入图片描述

图源:H3C《超节点技术白皮书》第 242 页,图 160。

如果训练平台无法读取和使用这些拓扑信息,硬件上的高带宽域就很难被正确使用。

八、通信仿真:不是为了预测绝对值,而是找瓶颈

中兴报告中的算力仿真平台图,适合作为训练系统设计方法论。

在这里插入图片描述

图源:中兴《超节点技术白皮书》第 32 页,图 3-1。

仿真最有价值的不是预测精确训练时间,而是回答这些问题:

  • TP 组跨域后 step time 增加多少?
  • EP 的 All-to-All 热点在哪些链路?
  • DP 分层归约是否降低跨域压力?
  • PP stage 是否存在气泡?
  • 扩大 HBD 后收益是否进入边际递减?
  • 通信和计算能否重叠?

这类问题决定超节点规模、拓扑和并行策略,而不是单个硬件参数。

九、工程调度清单

训练平台调度大模型任务时,可以按下面方式做约束。

调度对象 建议约束
TP group 强约束在同一 HBD 或低跳数拓扑内
EP group 优先同域,避免热门专家跨域
PP stage 相邻 stage 尽量拓扑临近
DP group 允许跨域,但需要分层归约策略
CP/SP group 结合序列长度和 KV/激活内存放置
通信库 根据拓扑选择 Ring/Tree/Hierarchical/All-to-All 实现

调度不是简单 bin packing。它需要把模型并行结构作为调度输入,而不是只看 GPU 数量。

十、总结

简单归纳:

  • DP 关注大流量归约和分层通信。
  • TP 关注层内高频低时延。
  • PP 关注阶段通信和流水线气泡。
  • EP 关注 All-to-All、热点和尾时延。
  • CP/SP 关注长序列下通信、缓存和内存协同。

超节点的价值,就是让训练平台可以把这些通信放到合适的网络层里,而不是让所有流量都挤在同一张网络上。

核心术语表

术语 含义
DP 数据并行,典型通信是梯度 All-Reduce。
TP 张量并行,层内通信高频,对低时延敏感。
PP 流水线并行,关注阶段间激活值/梯度传递和气泡。
EP 专家并行,MoE 中专家跨设备放置后产生 All-to-All。
CP 上下文并行,面向长序列切分上下文相关计算。
All-Reduce 多设备归约并广播结果,常见于梯度同步。
All-to-All 多设备互发不同数据,常见于专家分发和聚合。
拓扑感知调度 根据物理互联关系放置并行组,减少跨慢路径通信。
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐