Self-developed switch + network optimization + large model platform
在 AIDC(智算中心)领域,大模型训练的瓶颈往往不在于单张 GPU 的算力,而在于“成千上万张 GPU 如何高效通信”,这就是大厂们疯狂内卷自研网络和交换机的原因。
大厂的核心技术都围绕着“自研白盒交换机 + 极致网络优化(低延迟/无损) + 大模型平台”展开。以下为你详细梳理阿里云、腾讯、字节跳动的核心网络自研技术及平台内容:
一、 腾讯:星脉高性能计算网络(StarNetwork)
⭐️
以太网硬件 + 软件智能流量管控 达到 IB 水平
1. 分布式训练 星脉调度流程:扫描 Network topology 感知,判断出哪些流量走哪条路。输出流量调度表,下发给网卡们
2. 做 AllReduce 时,数据到达网卡缓冲区,星脉 intervention,在队列拥塞前,选择空闲的路径。AllReduce,心跳包优先级
不同,差异化调度。AllReduce 优先级高。
3. 数据经过交换机,交换机在 packet 的包头标上交换机的队列深度和延迟。接收端最后将这些信息反馈给发送方。
4. 用时间间隔来判定走不同的路径,而不是哈希【多路径负载均衡(ECMP++)】
"瞬间涌入大量数据导致交换机队列溢出"的现象就叫 micro-burst(微突发)。
用流量整形 traffic shaping 应对
原始:GPU A 一次性发送 1GB(16384 个 64KB 的包)
↓
[======== 1GB burst ========] → 交换机队列瞬间爆满 ❌
整形后:GPU A 分批发送,每批 64KB,批次间隔 10 微秒
↓
[64KB] --10μs-- [64KB] --10μs-- [64KB] ... → 交换机队列平稳 ✅
二、多路径负载均衡(ECMP++)
星脉解决的是 跨机器的网络通信,而不是机内 NVLink。
具体场景:GPU A(机器 1)→ GPU B(机器 2)
假设这两台机器的网络拓扑如下:
机器 1(GPU A) 机器 2(GPU B)
| |
[网卡] [网卡]
| |
+---[叶交换机 Leaf1]---[脊交换机 Spine1]---+
| × |
+---[叶交换机 Leaf2] [脊交换机 Spine2]---+
×
四条等价路径:
- 网卡 → Leaf1 → Spine1 → Leaf2 → 网卡
- 网卡 → Leaf1 → Spine2 → Leaf2 → 网卡
- 网卡 → Leaf1 → Spine1 → Leaf3 → 网卡(如果对端有多个上联)
- 网卡 → Leaf1 → Spine2 → Leaf3 → 网卡
这是典型的 Spine-Leaf 架构(也叫 Clos 网络),任意两台机器之间都有多条等价路径。
传统 ECMP 的问题
ECMP(等价多路径)的工作原理:
交换机根据数据包的"五元组"(源 IP、目的 IP、源端口、目的端口、协议)做哈希,决定走哪条路径。
举例说明问题:
假设 GPU A 到 GPU B 要发 4 条流(Flow 1 ~ Flow 4),每条流 1GB:
传统 ECMP 哈希结果:
Flow 1 → 哈希到路径 1
Flow 2 → 哈希到路径 1(碰撞!)
Flow 3 → 哈希到路径 3
Flow 4 → 哈希到路径 4
结果:路径 1 传 2GB(拥塞),路径 2 空闲(浪费)
为什么会碰撞?
因为五元组中,源 IP 和目的 IP 都固定,只有端口号在变。端口号范围有限(几千个),容易哈希到同一条路径。
星脉的 ECMP++ 解决方案
核心改进:Flowlet 调度
不再以"整条流"为单位选路,而是以 flowlet(微流) 为单位:
- 定义:如果两个数据包的时间间隔 > 阈值(如 100 微秒),就认为是不同的 flowlet
- 每个 flowlet 独立做路径选择
举例:
Flow 1 发送过程(拆成 3 个 flowlet):
Flowlet 1.1(前 300MB)→ 路径 1
--- 间隔 150μs ---
Flowlet 1.2(中 400MB)→ 路径 2(动态切换!)
--- 间隔 120μs ---
Flowlet 1.3(后 300MB)→ 路径 3
Flow 2 同理拆成多个 flowlet,分散到不同路径
选路依据:不再是固定哈希,而是实时查询每条路径的拥塞状态(通过 INT 反馈),选最空闲的路径。
对比效果
| 指标 | 传统 ECMP | 星脉 ECMP++ |
|---|---|---|
| 路径 1 负载 | 2GB(拥塞) | 1GB |
| 路径 2 负载 | 0GB(浪费) | 0.9GB |
| 路径 3 负载 | 1GB | 1GB |
| 路径 4 负载 | 1GB | 1.1GB |
| 完成时间 | 180ms | 105ms(↓ 42%) |
价值举例:
在 1024 张 GPU 的集群中,AllReduce 会产生数千条并发流。传统 ECMP 容易让某些链路过载(丢包、重传),星脉通过动态分流把带宽利用率从 60% 提升到 95%。
三、DPU(Data Processing Unit)是什么?
定义
DPU 是一颗 专门处理网络/存储/安全任务的协处理器,卸载 CPU 的负担。
类比:
- CPU:大脑,负责通用计算
- GPU:专业画师,负责并行计算(AI 训练)
- DPU:秘书,负责收发邮件、整理文件(网络/存储)
硬件形态
DPU 通常是一张 PCIe 网卡,内部集成:
- 网络处理器(如 ARM 核):运行 TCP/IP 协议栈
- 可编程加速引擎:做加解密、压缩、正则匹配
- 高速接口:连接到 CPU/GPU 和网络
代表产品:
- NVIDIA BlueField-3:集成 16 个 ARM 核 + 400Gbps 以太网接口
- Intel IPU(Infrastructure Processing Unit)
- AMD Pensando
DPU 在星脉中的角色
| 任务 | 传统方案(CPU 做) | 有 DPU(DPU 做) |
|---|---|---|
| 网络协议处理 | CPU 跑 Linux 内核协议栈 | DPU 硬件卸载 RDMA/RoCE |
| 流量调度 | CPU 查路由表、做负载均衡 | DPU 执行星脉的调度策略 |
| 拥塞检测 | CPU 分析 INT 数据 | DPU 实时解析并调整发送速率 |
| 安全隔离 | CPU 跑防火墙 | DPU 硬件过滤 |
举例说明价值:
假设一台 AI 训练服务器有 8 张 A100,AllReduce 时网络吞吐达到 3.2Tbps(每张卡 400Gbps):
- 无 DPU:CPU 的 16 个核要花 30% 的时间处理网络中断和协议栈,只剩 70% 给训练任务
- 有 DPU:网络处理完全卸载,CPU 100% 专注训练,训练吞吐提升 15%
同时,DPU 可以实时执行星脉的流量调度算法(每微秒级别的决策),CPU 根本做不到这么快。
四、星脉功能全景 + 运行位置 + 价值举例
把星脉的所有功能按"运行位置"分类,每个都给出具体例子。
功能地图
| 功能模块 | 运行位置 | 具体作用 | 价值举例 |
|---|---|---|---|
| 全局调度器 | 独立控制节点 | 收集集群拓扑、任务信息,计算流量调度方案 | 1024 张 GPU 训练时,提前规划好哪些流量走哪条路径,避免 80% 的拥塞冲突 |
| 拓扑发现 | 控制节点 + 每个交换机 | 通过 LLDP/BGP 探测网络结构 | 发现某条链路故障,10ms 内通知所有节点绕行 |
| 流量整形(Pacing) | 网卡/DPU | 控制数据包发送间隔 | 把 1GB 突发流量拆成 100 微秒间隔的小批,交换机队列占用从 90% 降到 40% |
| Flowlet 路径选择 | 网卡/DPU | 每个微流动态选最优路径 | 4 条路径的带宽利用率从 [95%, 30%, 20%, 10%] 均衡到 [70%, 65%, 68%, 72%] |
| INT 数据采集 | 交换机 | 在数据包头插入队列深度、时延等信息 | 发送端提前 50 微秒感知拥塞,切换路径避免丢包 |
| 拥塞反馈处理 | 网卡/DPU | 解析 INT 数据,调整发送速率 | 检测到某路径队列 > 阈值,立即降速 20%,避免触发 PFC 暂停 |
| 快速重路由 | 网卡/DPU + 交换机 | 故障时秒级切换路径 | 某交换机掉电,100ms 内所有流量切到备用路径,训练无感知 |
| 优先级队列管理 | 交换机 | 给不同流量分配不同优先级 | AllReduce 高优先级,心跳包低优先级,确保训练数据优先转发 |
| RDMA QP 管理 | 网卡/DPU | 管理 RoCE 的队列对,防止死锁 | 8 张卡同时通信时,动态分配 64 个 QP,避免传统静态分配导致的资源浪费 |
| 网内聚合(可选) | 可编程交换机 | 在交换机内做部分 AllReduce 计算 | 8 张卡的梯度在交换机汇聚时直接求和,减少 30% 的网络流量 |
一、关键区别:两种"拓扑"根本不是一回事
| 维度 | NCCL 的拓扑感知 | 星脉的拓扑感知 |
|---|---|---|
| 看的是什么 | 逻辑通信拓扑:GPU 之间该怎么组队通信 | 物理网络拓扑:数据包在交换机之间怎么走线 |
| 关心的问题 | “谁和谁通信,按什么顺序”(Ring/Tree) | “这个包从网卡出去走哪条物理链路” |
| 感知范围 | 主要是机内(GPU-NVLink-PCIe-网卡的关系) | 主要是机间(网卡-交换机-交换机的拓扑) |
| 到哪里为止 | 到网卡就停了,网卡之外是黑盒 | 从网卡开始,管整个交换网络 |
| 时间特性 | 静态(初始化时探测一次) | 动态(实时监控拥塞、故障) |
腾讯在 AIDC 网络技术上的代表作是星脉网络(现已升级至 2.0 版本),它是专门为了解决 10 万卡级别超大规模 AI 集群训练而设计的软硬协同高性能网络。
1. 硬件自研:自研交换机与算力网卡
- 自研交换机升级: 腾讯自研交换机交换容量提升到了 51.2T(单台交换机支持多路 400G/800G 端口)。
- 自研光模块: 采用自研硅光模块,速率提升至 400G/800G,大幅降低光通信带来的功耗。
- 自研算力网卡: 2.0 最大的升级是搭载了全自研的 AI 算力网卡,负责端到端的流量调度。
2. 核心网络技术:TiTa 协议与 TCCL 通信库
- TiTa 协议(自研拥塞控制算法): 传统以太网容易丢包。腾讯自研的 TiTa 协议内嵌于网卡中,能够实时感知网络拥塞,做到零丢包与高吞吐,将尾部延迟(Tail Latency)降到最低。
- TCCL(腾讯集体通信库): 对标英伟达的 NCCL。它能根据腾讯自研网络的拓扑结构,自动选择最优的通信算法(如 Ring、Tree 拓扑),让多卡并行的结果同步变得更快。
运维/建设看点: 软硬一体化。通过自研全栈运营系统,将超大集群的网络故障定位从“天级”缩短到“分钟级”。
二、 字节跳动:分布式解耦机箱(DDC)与全自研智算网络
字节跳动的抖音、TikTok 背后有大量的推荐算法和大模型需求。他们在网络架构上走得非常前沿,是全球首个在生产环境大规模部署以太网 DDC 架构的公司。
1. 核心网络架构:DDC(Distributed Disaggregated Chassis)
传统的 AI 集群网络使用多层 Spine-Leaf(叶脊)交换机架构,层级多、流控复杂。字节跳动打破了传统,采用 DDC(分布式解耦机箱)方案:
- 把整个智算网络变成一台“大交换机”: DDC 将传统大型框式交换机的内部组件(线卡、交换网板)拆散,变成一个个独立的白盒(NCP 和 NCF)。
- 信元级别转发(Cell-based Fabric): 传统的以太网是按“数据包(Packet)”转发的,容易因为某条路径堵塞导致丢包。DDC 架构把数据打碎成平等的“信元(Cell)”,均匀地分发到所有路径上,在出口再组装。从而实现绝对平等的负载均衡、零丢包、几乎零抖动。
2. 自研芯片:定海智算网卡与自研交换芯片
- “定海”智算网卡: 字节自研的高性能可编程网卡,支持灵活自定义 RoCE(RDMA over Converged Ethernet)拥塞算法。
- 自研交换芯片: 配合 Broadcom 等巨头深度定制自研交换机,具备高可编程性,支持算网联动。
三、 阿里云:可编程网络与“百炼”大模型平台
阿里云在智算中心的布局是“左手抓底层高性能网络,右手抓上层 AI 应用平台”。
1. 底层网络技术:磐久(HPN)与可编程交换机
- 磐久智算网络架构(HPN 7.0): 阿里云利用自研的白盒交换机,构建了超大规模的无损以太网驱动智算中心。
- 自研高性能网卡(Solar-RDMA): 阿里云自研的端高性能网络协议,降低主机 CPU 的网络开销,支持超大规模的 GPU 集群低延迟并行计算。
2. 上层平台:阿里云“百炼”平台(Bailian Platform)
这是领导特别点名让你看的平台。作为运维和建设方,你要明白“百炼”是智算中心能力的“出口”。
- 定位: 一站式大模型应用开发平台(MaaS,Model as a Service)。
- 核心内容:
- 多模型托管: 平台不仅集成了阿里自研的通义千问(Tongyi Qianwen)系列大模型,还托管了大量主流的开源大模型(如 Llama、Mistral、智谱 GLM 等)。
- 企业级工具链: 提供了 RAG(检索增强生成/知识库对接)、微调(Fine-tuning)、Prompt 工程、Agent(智能体)编排等全套工具。
- NL2SQL 能力(如 XiYan GBI): 百炼平台深度优化了自然语言转数据查询的能力,让企业用户可以通过大模型直接用大白话查询复杂的数据库。
运维/建设看点: 为什么建 AIDC?就是为了支撑像“百炼”这样的平台稳定运行。百炼平台上的海量微调和推理任务,会直接转化为智算中心底层的网络流量与算力负载。
四、 资料总结(快速交差指南)
可以用一句话概括这三家的技术路线差异:
- 腾讯云(星脉 2.0): 主打自研网卡+自研交换机+TiTa协议的软硬一体全栈自研,适合追求超高通信效率、超大规模(10万卡)的极致训练集群。
- 字节跳动(DDC网络): 技术最激进,抛弃了传统网络拓扑,利用信元交换(DDC)实现了完美的负载均衡和纳秒级故障切换,解决了大模型训练最怕的“尾部延迟”和“作业中断”问题。
- 阿里云(磐久+百炼): 走的是“底座网络 + 顶层平台”的双轮驱动。底层用磐久无损网络提供算力,上层通过百炼平台把这些算力包装成大模型能力卖给企业客户。
资料检索建议:
你可以在技术社区(如 腾讯云技术团队公众号、阿里云开发者社区、字节跳动火山引擎技术白皮书)中搜索以下关键词获取原厂 PDF 资料:
- “腾讯云星脉网络2.0技术白皮书”
- “字节跳动 DDC 智算网络生产实践”
- “阿里云百炼平台架构与全栈 AI 能力”
⭐️
阿里云百炼:帮你快速地将 AI 能力组装到自己的业务中。
1. 提供阿里的各种模型接口和开源大模型,还支持用户上传自己的模型
2. 大模型瞎猜幻觉,平台提供 RAG 功能,用户能上传自己的文件,存入阿里的向量数据库
3. 提供大模型微调,用户只需要上传“输入-输出”的 prompt 对齐数据集,即可一键启动微调训练。
4. 支持开发agent,不仅能聊天还能行动,大模型调用外部工具 API 来扩展能力。(自动看天气,定行程,回邮件等)
5. Monitoring, 能看到 token 消耗和延迟(看清性能与钱的去向)。带有内容安全过滤网(黄、恐、政等,),服务不被封
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)