在 AIDC(智算中心)领域,大模型训练的瓶颈往往不在于单张 GPU 的算力,而在于“成千上万张 GPU 如何高效通信”,这就是大厂们疯狂内卷自研网络和交换机的原因。

大厂的核心技术都围绕着“自研白盒交换机 + 极致网络优化(低延迟/无损) + 大模型平台”展开。以下为你详细梳理阿里云、腾讯、字节跳动的核心网络自研技术及平台内容:


一、 腾讯:星脉高性能计算网络(StarNetwork)

⭐️
以太网硬件 + 软件智能流量管控 达到 IB 水平
1. 分布式训练 星脉调度流程:扫描 Network topology 感知,判断出哪些流量走哪条路。输出流量调度表,下发给网卡们
2. 做 AllReduce 时,数据到达网卡缓冲区,星脉 intervention,在队列拥塞前,选择空闲的路径。AllReduce,心跳包优先级
不同,差异化调度。AllReduce 优先级高。
3. 数据经过交换机,交换机在 packet 的包头标上交换机的队列深度和延迟。接收端最后将这些信息反馈给发送方。
4. 用时间间隔来判定走不同的路径,而不是哈希【多路径负载均衡(ECMP++)】
"瞬间涌入大量数据导致交换机队列溢出"的现象就叫 micro-burst(微突发)。
用流量整形 traffic shaping 应对
原始:GPU A 一次性发送 1GB(16384 个 64KB 的包)
      ↓
      [======== 1GB burst ========] → 交换机队列瞬间爆满 ❌

整形后:GPU A 分批发送,每批 64KB,批次间隔 10 微秒
      ↓
      [64KB] --10μs-- [64KB] --10μs-- [64KB] ... → 交换机队列平稳 ✅

二、多路径负载均衡(ECMP++)

星脉解决的是 跨机器的网络通信,而不是机内 NVLink。

具体场景:GPU A(机器 1)→ GPU B(机器 2)

假设这两台机器的网络拓扑如下:

机器 1(GPU A)                     机器 2(GPU B)
    |                                   |
 [网卡]                              [网卡]
    |                                   |
    +---[叶交换机 Leaf1]---[脊交换机 Spine1]---+
    |                   ×               |
    +---[叶交换机 Leaf2]   [脊交换机 Spine2]---+
                        ×               

四条等价路径

  1. 网卡 → Leaf1 → Spine1 → Leaf2 → 网卡
  2. 网卡 → Leaf1 → Spine2 → Leaf2 → 网卡
  3. 网卡 → Leaf1 → Spine1 → Leaf3 → 网卡(如果对端有多个上联)
  4. 网卡 → Leaf1 → Spine2 → Leaf3 → 网卡

这是典型的 Spine-Leaf 架构(也叫 Clos 网络),任意两台机器之间都有多条等价路径。

传统 ECMP 的问题

ECMP(等价多路径)的工作原理
交换机根据数据包的"五元组"(源 IP、目的 IP、源端口、目的端口、协议)做哈希,决定走哪条路径。

举例说明问题
假设 GPU A 到 GPU B 要发 4 条流(Flow 1 ~ Flow 4),每条流 1GB:

传统 ECMP 哈希结果:
Flow 1 → 哈希到路径 1
Flow 2 → 哈希到路径 1(碰撞!)
Flow 3 → 哈希到路径 3
Flow 4 → 哈希到路径 4

结果:路径 1 传 2GB(拥塞),路径 2 空闲(浪费)

为什么会碰撞?
因为五元组中,源 IP 和目的 IP 都固定,只有端口号在变。端口号范围有限(几千个),容易哈希到同一条路径。

星脉的 ECMP++ 解决方案

核心改进:Flowlet 调度

不再以"整条流"为单位选路,而是以 flowlet(微流) 为单位:

  • 定义:如果两个数据包的时间间隔 > 阈值(如 100 微秒),就认为是不同的 flowlet
  • 每个 flowlet 独立做路径选择

举例

Flow 1 发送过程(拆成 3 个 flowlet):
  Flowlet 1.1(前 300MB)→ 路径 1
  --- 间隔 150μs ---
  Flowlet 1.2(中 400MB)→ 路径 2(动态切换!)
  --- 间隔 120μs ---
  Flowlet 1.3(后 300MB)→ 路径 3

Flow 2 同理拆成多个 flowlet,分散到不同路径

选路依据:不再是固定哈希,而是实时查询每条路径的拥塞状态(通过 INT 反馈),选最空闲的路径。

对比效果

指标 传统 ECMP 星脉 ECMP++
路径 1 负载 2GB(拥塞) 1GB
路径 2 负载 0GB(浪费) 0.9GB
路径 3 负载 1GB 1GB
路径 4 负载 1GB 1.1GB
完成时间 180ms 105ms(↓ 42%)

价值举例
在 1024 张 GPU 的集群中,AllReduce 会产生数千条并发流。传统 ECMP 容易让某些链路过载(丢包、重传),星脉通过动态分流把带宽利用率从 60% 提升到 95%。


三、DPU(Data Processing Unit)是什么?

定义

DPU 是一颗 专门处理网络/存储/安全任务的协处理器,卸载 CPU 的负担。

类比

  • CPU:大脑,负责通用计算
  • GPU:专业画师,负责并行计算(AI 训练)
  • DPU:秘书,负责收发邮件、整理文件(网络/存储)

硬件形态

DPU 通常是一张 PCIe 网卡,内部集成:

  1. 网络处理器(如 ARM 核):运行 TCP/IP 协议栈
  2. 可编程加速引擎:做加解密、压缩、正则匹配
  3. 高速接口:连接到 CPU/GPU 和网络

代表产品

  • NVIDIA BlueField-3:集成 16 个 ARM 核 + 400Gbps 以太网接口
  • Intel IPU(Infrastructure Processing Unit)
  • AMD Pensando

DPU 在星脉中的角色

任务 传统方案(CPU 做) 有 DPU(DPU 做)
网络协议处理 CPU 跑 Linux 内核协议栈 DPU 硬件卸载 RDMA/RoCE
流量调度 CPU 查路由表、做负载均衡 DPU 执行星脉的调度策略
拥塞检测 CPU 分析 INT 数据 DPU 实时解析并调整发送速率
安全隔离 CPU 跑防火墙 DPU 硬件过滤

举例说明价值
假设一台 AI 训练服务器有 8 张 A100,AllReduce 时网络吞吐达到 3.2Tbps(每张卡 400Gbps):

  • 无 DPU:CPU 的 16 个核要花 30% 的时间处理网络中断和协议栈,只剩 70% 给训练任务
  • 有 DPU:网络处理完全卸载,CPU 100% 专注训练,训练吞吐提升 15%

同时,DPU 可以实时执行星脉的流量调度算法(每微秒级别的决策),CPU 根本做不到这么快。


四、星脉功能全景 + 运行位置 + 价值举例

把星脉的所有功能按"运行位置"分类,每个都给出具体例子。

功能地图

功能模块 运行位置 具体作用 价值举例
全局调度器 独立控制节点 收集集群拓扑、任务信息,计算流量调度方案 1024 张 GPU 训练时,提前规划好哪些流量走哪条路径,避免 80% 的拥塞冲突
拓扑发现 控制节点 + 每个交换机 通过 LLDP/BGP 探测网络结构 发现某条链路故障,10ms 内通知所有节点绕行
流量整形(Pacing) 网卡/DPU 控制数据包发送间隔 把 1GB 突发流量拆成 100 微秒间隔的小批,交换机队列占用从 90% 降到 40%
Flowlet 路径选择 网卡/DPU 每个微流动态选最优路径 4 条路径的带宽利用率从 [95%, 30%, 20%, 10%] 均衡到 [70%, 65%, 68%, 72%]
INT 数据采集 交换机 在数据包头插入队列深度、时延等信息 发送端提前 50 微秒感知拥塞,切换路径避免丢包
拥塞反馈处理 网卡/DPU 解析 INT 数据,调整发送速率 检测到某路径队列 > 阈值,立即降速 20%,避免触发 PFC 暂停
快速重路由 网卡/DPU + 交换机 故障时秒级切换路径 某交换机掉电,100ms 内所有流量切到备用路径,训练无感知
优先级队列管理 交换机 给不同流量分配不同优先级 AllReduce 高优先级,心跳包低优先级,确保训练数据优先转发
RDMA QP 管理 网卡/DPU 管理 RoCE 的队列对,防止死锁 8 张卡同时通信时,动态分配 64 个 QP,避免传统静态分配导致的资源浪费
网内聚合(可选) 可编程交换机 在交换机内做部分 AllReduce 计算 8 张卡的梯度在交换机汇聚时直接求和,减少 30% 的网络流量

一、关键区别:两种"拓扑"根本不是一回事

维度 NCCL 的拓扑感知 星脉的拓扑感知
看的是什么 逻辑通信拓扑:GPU 之间该怎么组队通信 物理网络拓扑:数据包在交换机之间怎么走线
关心的问题 “谁和谁通信,按什么顺序”(Ring/Tree) “这个包从网卡出去走哪条物理链路”
感知范围 主要是机内(GPU-NVLink-PCIe-网卡的关系) 主要是机间(网卡-交换机-交换机的拓扑)
到哪里为止 到网卡就停了,网卡之外是黑盒 从网卡开始,管整个交换网络
时间特性 静态(初始化时探测一次) 动态(实时监控拥塞、故障)

腾讯在 AIDC 网络技术上的代表作是星脉网络(现已升级至 2.0 版本),它是专门为了解决 10 万卡级别超大规模 AI 集群训练而设计的软硬协同高性能网络。

1. 硬件自研:自研交换机与算力网卡

  • 自研交换机升级: 腾讯自研交换机交换容量提升到了 51.2T(单台交换机支持多路 400G/800G 端口)。
  • 自研光模块: 采用自研硅光模块,速率提升至 400G/800G,大幅降低光通信带来的功耗。
  • 自研算力网卡: 2.0 最大的升级是搭载了全自研的 AI 算力网卡,负责端到端的流量调度。

2. 核心网络技术:TiTa 协议与 TCCL 通信库

  • TiTa 协议(自研拥塞控制算法): 传统以太网容易丢包。腾讯自研的 TiTa 协议内嵌于网卡中,能够实时感知网络拥塞,做到零丢包与高吞吐,将尾部延迟(Tail Latency)降到最低。
  • TCCL(腾讯集体通信库): 对标英伟达的 NCCL。它能根据腾讯自研网络的拓扑结构,自动选择最优的通信算法(如 Ring、Tree 拓扑),让多卡并行的结果同步变得更快。

运维/建设看点: 软硬一体化。通过自研全栈运营系统,将超大集群的网络故障定位从“天级”缩短到“分钟级”。


二、 字节跳动:分布式解耦机箱(DDC)与全自研智算网络

字节跳动的抖音、TikTok 背后有大量的推荐算法和大模型需求。他们在网络架构上走得非常前沿,是全球首个在生产环境大规模部署以太网 DDC 架构的公司。

1. 核心网络架构:DDC(Distributed Disaggregated Chassis)

传统的 AI 集群网络使用多层 Spine-Leaf(叶脊)交换机架构,层级多、流控复杂。字节跳动打破了传统,采用 DDC(分布式解耦机箱)方案:

  • 把整个智算网络变成一台“大交换机”: DDC 将传统大型框式交换机的内部组件(线卡、交换网板)拆散,变成一个个独立的白盒(NCP 和 NCF)。
  • 信元级别转发(Cell-based Fabric): 传统的以太网是按“数据包(Packet)”转发的,容易因为某条路径堵塞导致丢包。DDC 架构把数据打碎成平等的“信元(Cell)”,均匀地分发到所有路径上,在出口再组装。从而实现绝对平等的负载均衡、零丢包、几乎零抖动

2. 自研芯片:定海智算网卡与自研交换芯片

  • “定海”智算网卡: 字节自研的高性能可编程网卡,支持灵活自定义 RoCE(RDMA over Converged Ethernet)拥塞算法。
  • 自研交换芯片: 配合 Broadcom 等巨头深度定制自研交换机,具备高可编程性,支持算网联动。

三、 阿里云:可编程网络与“百炼”大模型平台

阿里云在智算中心的布局是“左手抓底层高性能网络,右手抓上层 AI 应用平台”。

1. 底层网络技术:磐久(HPN)与可编程交换机

  • 磐久智算网络架构(HPN 7.0): 阿里云利用自研的白盒交换机,构建了超大规模的无损以太网驱动智算中心。
  • 自研高性能网卡(Solar-RDMA): 阿里云自研的端高性能网络协议,降低主机 CPU 的网络开销,支持超大规模的 GPU 集群低延迟并行计算。

2. 上层平台:阿里云“百炼”平台(Bailian Platform)

这是领导特别点名让你看的平台。作为运维和建设方,你要明白“百炼”是智算中心能力的“出口”。

  • 定位: 一站式大模型应用开发平台(MaaS,Model as a Service)。
  • 核心内容:
  • 多模型托管: 平台不仅集成了阿里自研的通义千问(Tongyi Qianwen)系列大模型,还托管了大量主流的开源大模型(如 Llama、Mistral、智谱 GLM 等)。
  • 企业级工具链: 提供了 RAG(检索增强生成/知识库对接)、微调(Fine-tuning)、Prompt 工程、Agent(智能体)编排等全套工具。
  • NL2SQL 能力(如 XiYan GBI): 百炼平台深度优化了自然语言转数据查询的能力,让企业用户可以通过大模型直接用大白话查询复杂的数据库。

运维/建设看点: 为什么建 AIDC?就是为了支撑像“百炼”这样的平台稳定运行。百炼平台上的海量微调和推理任务,会直接转化为智算中心底层的网络流量与算力负载。


四、 资料总结(快速交差指南)

可以用一句话概括这三家的技术路线差异:

  1. 腾讯云(星脉 2.0): 主打自研网卡+自研交换机+TiTa协议的软硬一体全栈自研,适合追求超高通信效率、超大规模(10万卡)的极致训练集群。
  2. 字节跳动(DDC网络): 技术最激进,抛弃了传统网络拓扑,利用信元交换(DDC)实现了完美的负载均衡和纳秒级故障切换,解决了大模型训练最怕的“尾部延迟”和“作业中断”问题。
  3. 阿里云(磐久+百炼): 走的是“底座网络 + 顶层平台”的双轮驱动。底层用磐久无损网络提供算力,上层通过百炼平台把这些算力包装成大模型能力卖给企业客户。

资料检索建议:
你可以在技术社区(如 腾讯云技术团队公众号、阿里云开发者社区、字节跳动火山引擎技术白皮书)中搜索以下关键词获取原厂 PDF 资料:

  • “腾讯云星脉网络2.0技术白皮书”
  • “字节跳动 DDC 智算网络生产实践”
  • “阿里云百炼平台架构与全栈 AI 能力”

⭐️
阿里云百炼:帮你快速地将 AI 能力组装到自己的业务中。
1. 提供阿里的各种模型接口和开源大模型,还支持用户上传自己的模型
2. 大模型瞎猜幻觉,平台提供 RAG 功能,用户能上传自己的文件,存入阿里的向量数据库
3. 提供大模型微调,用户只需要上传“输入-输出”的 prompt 对齐数据集,即可一键启动微调训练。
4. 支持开发agent,不仅能聊天还能行动,大模型调用外部工具 API 来扩展能力。(自动看天气,定行程,回邮件等) 
5. Monitoring, 能看到 token 消耗和延迟(看清性能与钱的去向)。带有内容安全过滤网(黄、恐、政等,),服务不被封
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐