Self-developed switch + network optimization + large model platform

The Straggling Crow

327人浏览 · 2026-06-03 16:17:18

The Straggling Crow · 2026-06-03 16:17:18 发布

在 AIDC（智算中心）领域，大模型训练的瓶颈往往不在于单张 GPU 的算力，而在于“成千上万张 GPU 如何高效通信”，这就是大厂们疯狂内卷自研网络和交换机的原因。

大厂的核心技术都围绕着“自研白盒交换机 + 极致网络优化（低延迟/无损） + 大模型平台”展开。以下为你详细梳理阿里云、腾讯、字节跳动的核心网络自研技术及平台内容：

一、腾讯：星脉高性能计算网络（StarNetwork）

⭐️
以太网硬件 + 软件智能流量管控 达到 IB 水平
1. 分布式训练 星脉调度流程：扫描 Network topology 感知，判断出哪些流量走哪条路。输出流量调度表，下发给网卡们
2. 做 AllReduce 时，数据到达网卡缓冲区，星脉 intervention，在队列拥塞前，选择空闲的路径。AllReduce,心跳包优先级
不同，差异化调度。AllReduce 优先级高。
3. 数据经过交换机，交换机在 packet 的包头标上交换机的队列深度和延迟。接收端最后将这些信息反馈给发送方。
4. 用时间间隔来判定走不同的路径，而不是哈希【多路径负载均衡（ECMP++）】

"瞬间涌入大量数据导致交换机队列溢出"的现象就叫 micro-burst（微突发）。
用流量整形 traffic shaping 应对
原始：GPU A 一次性发送 1GB（16384 个 64KB 的包）
      ↓
      [======== 1GB burst ========] → 交换机队列瞬间爆满 ❌

整形后：GPU A 分批发送，每批 64KB，批次间隔 10 微秒
      ↓
      [64KB] --10μs-- [64KB] --10μs-- [64KB] ... → 交换机队列平稳 ✅

二、多路径负载均衡（ECMP++）

星脉解决的是 跨机器的网络通信，而不是机内 NVLink。

具体场景：GPU A（机器 1）→ GPU B（机器 2）

假设这两台机器的网络拓扑如下：

机器 1（GPU A）                     机器 2（GPU B）
    |                                   |
 [网卡]                              [网卡]
    |                                   |
    +---[叶交换机 Leaf1]---[脊交换机 Spine1]---+
    |                   ×               |
    +---[叶交换机 Leaf2]   [脊交换机 Spine2]---+
                        ×

四条等价路径：

网卡 → Leaf1 → Spine1 → Leaf2 → 网卡
网卡 → Leaf1 → Spine2 → Leaf2 → 网卡
网卡 → Leaf1 → Spine1 → Leaf3 → 网卡（如果对端有多个上联）
网卡 → Leaf1 → Spine2 → Leaf3 → 网卡

这是典型的 Spine-Leaf 架构（也叫 Clos 网络），任意两台机器之间都有多条等价路径。

传统 ECMP 的问题

ECMP（等价多路径）的工作原理：
交换机根据数据包的"五元组"（源 IP、目的 IP、源端口、目的端口、协议）做哈希，决定走哪条路径。

举例说明问题：
假设 GPU A 到 GPU B 要发 4 条流（Flow 1 ~ Flow 4），每条流 1GB：

传统 ECMP 哈希结果：
Flow 1 → 哈希到路径 1
Flow 2 → 哈希到路径 1（碰撞！）
Flow 3 → 哈希到路径 3
Flow 4 → 哈希到路径 4

结果：路径 1 传 2GB（拥塞），路径 2 空闲（浪费）

为什么会碰撞？
因为五元组中，源 IP 和目的 IP 都固定，只有端口号在变。端口号范围有限（几千个），容易哈希到同一条路径。

星脉的 ECMP++ 解决方案

核心改进：Flowlet 调度

不再以"整条流"为单位选路，而是以 flowlet（微流） 为单位：

定义：如果两个数据包的时间间隔 > 阈值（如 100 微秒），就认为是不同的 flowlet
每个 flowlet 独立做路径选择

举例：

Flow 1 发送过程（拆成 3 个 flowlet）：
  Flowlet 1.1（前 300MB）→ 路径 1
  --- 间隔 150μs ---
  Flowlet 1.2（中 400MB）→ 路径 2（动态切换！）
  --- 间隔 120μs ---
  Flowlet 1.3（后 300MB）→ 路径 3

Flow 2 同理拆成多个 flowlet，分散到不同路径

选路依据：不再是固定哈希，而是实时查询每条路径的拥塞状态（通过 INT 反馈），选最空闲的路径。

对比效果

指标	传统 ECMP	星脉 ECMP++
路径 1 负载	2GB（拥塞）	1GB
路径 2 负载	0GB（浪费）	0.9GB
路径 3 负载	1GB	1GB
路径 4 负载	1GB	1.1GB
完成时间	180ms	105ms（↓ 42%）

价值举例：
在 1024 张 GPU 的集群中，AllReduce 会产生数千条并发流。传统 ECMP 容易让某些链路过载（丢包、重传），星脉通过动态分流把带宽利用率从 60% 提升到 95%。

三、DPU（Data Processing Unit）是什么？

定义

DPU 是一颗 专门处理网络/存储/安全任务的协处理器，卸载 CPU 的负担。

类比：

CPU：大脑，负责通用计算
GPU：专业画师，负责并行计算（AI 训练）
DPU：秘书，负责收发邮件、整理文件（网络/存储）

硬件形态

DPU 通常是一张 PCIe 网卡，内部集成：

网络处理器（如 ARM 核）：运行 TCP/IP 协议栈
可编程加速引擎：做加解密、压缩、正则匹配
高速接口：连接到 CPU/GPU 和网络

代表产品：

NVIDIA BlueField-3：集成 16 个 ARM 核 + 400Gbps 以太网接口
Intel IPU（Infrastructure Processing Unit）
AMD Pensando

DPU 在星脉中的角色

任务	传统方案（CPU 做）	有 DPU（DPU 做）
网络协议处理	CPU 跑 Linux 内核协议栈	DPU 硬件卸载 RDMA/RoCE
流量调度	CPU 查路由表、做负载均衡	DPU 执行星脉的调度策略
拥塞检测	CPU 分析 INT 数据	DPU 实时解析并调整发送速率
安全隔离	CPU 跑防火墙	DPU 硬件过滤

举例说明价值：
假设一台 AI 训练服务器有 8 张 A100，AllReduce 时网络吞吐达到 3.2Tbps（每张卡 400Gbps）：

无 DPU：CPU 的 16 个核要花 30% 的时间处理网络中断和协议栈，只剩 70% 给训练任务
有 DPU：网络处理完全卸载，CPU 100% 专注训练，训练吞吐提升 15%

同时，DPU 可以实时执行星脉的流量调度算法（每微秒级别的决策），CPU 根本做不到这么快。

四、星脉功能全景 + 运行位置 + 价值举例

把星脉的所有功能按"运行位置"分类，每个都给出具体例子。

功能地图

功能模块	运行位置	具体作用	价值举例
全局调度器	独立控制节点	收集集群拓扑、任务信息，计算流量调度方案	1024 张 GPU 训练时，提前规划好哪些流量走哪条路径，避免 80% 的拥塞冲突
拓扑发现	控制节点 + 每个交换机	通过 LLDP/BGP 探测网络结构	发现某条链路故障，10ms 内通知所有节点绕行
流量整形（Pacing）	网卡/DPU	控制数据包发送间隔	把 1GB 突发流量拆成 100 微秒间隔的小批，交换机队列占用从 90% 降到 40%
Flowlet 路径选择	网卡/DPU	每个微流动态选最优路径	4 条路径的带宽利用率从 [95%, 30%, 20%, 10%] 均衡到 [70%, 65%, 68%, 72%]
INT 数据采集	交换机	在数据包头插入队列深度、时延等信息	发送端提前 50 微秒感知拥塞，切换路径避免丢包
拥塞反馈处理	网卡/DPU	解析 INT 数据，调整发送速率	检测到某路径队列 > 阈值，立即降速 20%，避免触发 PFC 暂停
快速重路由	网卡/DPU + 交换机	故障时秒级切换路径	某交换机掉电，100ms 内所有流量切到备用路径，训练无感知
优先级队列管理	交换机	给不同流量分配不同优先级	AllReduce 高优先级，心跳包低优先级，确保训练数据优先转发
RDMA QP 管理	网卡/DPU	管理 RoCE 的队列对，防止死锁	8 张卡同时通信时，动态分配 64 个 QP，避免传统静态分配导致的资源浪费
网内聚合（可选）	可编程交换机	在交换机内做部分 AllReduce 计算	8 张卡的梯度在交换机汇聚时直接求和，减少 30% 的网络流量

一、关键区别：两种"拓扑"根本不是一回事

维度	NCCL 的拓扑感知	星脉的拓扑感知
看的是什么	逻辑通信拓扑：GPU 之间该怎么组队通信	物理网络拓扑：数据包在交换机之间怎么走线
关心的问题	“谁和谁通信，按什么顺序”（Ring/Tree）	“这个包从网卡出去走哪条物理链路”
感知范围	主要是机内（GPU-NVLink-PCIe-网卡的关系）	主要是机间（网卡-交换机-交换机的拓扑）
到哪里为止	到网卡就停了，网卡之外是黑盒	从网卡开始，管整个交换网络
时间特性	静态（初始化时探测一次）	动态（实时监控拥塞、故障）

腾讯在 AIDC 网络技术上的代表作是星脉网络（现已升级至 2.0 版本），它是专门为了解决 10 万卡级别超大规模 AI 集群训练而设计的软硬协同高性能网络。

1. 硬件自研：自研交换机与算力网卡

自研交换机升级： 腾讯自研交换机交换容量提升到了 51.2T（单台交换机支持多路 400G/800G 端口）。
自研光模块： 采用自研硅光模块，速率提升至 400G/800G，大幅降低光通信带来的功耗。
自研算力网卡： 2.0 最大的升级是搭载了全自研的 AI 算力网卡，负责端到端的流量调度。

2. 核心网络技术：TiTa 协议与 TCCL 通信库

TiTa 协议（自研拥塞控制算法）： 传统以太网容易丢包。腾讯自研的 TiTa 协议内嵌于网卡中，能够实时感知网络拥塞，做到零丢包与高吞吐，将尾部延迟（Tail Latency）降到最低。
TCCL（腾讯集体通信库）： 对标英伟达的 NCCL。它能根据腾讯自研网络的拓扑结构，自动选择最优的通信算法（如 Ring、Tree 拓扑），让多卡并行的结果同步变得更快。

运维/建设看点： 软硬一体化。通过自研全栈运营系统，将超大集群的网络故障定位从“天级”缩短到“分钟级”。

二、字节跳动：分布式解耦机箱（DDC）与全自研智算网络

字节跳动的抖音、TikTok 背后有大量的推荐算法和大模型需求。他们在网络架构上走得非常前沿，是全球首个在生产环境大规模部署以太网 DDC 架构的公司。

1. 核心网络架构：DDC（Distributed Disaggregated Chassis）

传统的 AI 集群网络使用多层 Spine-Leaf（叶脊）交换机架构，层级多、流控复杂。字节跳动打破了传统，采用 DDC（分布式解耦机箱）方案：

把整个智算网络变成一台“大交换机”： DDC 将传统大型框式交换机的内部组件（线卡、交换网板）拆散，变成一个个独立的白盒（NCP 和 NCF）。
信元级别转发（Cell-based Fabric）： 传统的以太网是按“数据包（Packet）”转发的，容易因为某条路径堵塞导致丢包。DDC 架构把数据打碎成平等的“信元（Cell）”，均匀地分发到所有路径上，在出口再组装。从而实现绝对平等的负载均衡、零丢包、几乎零抖动。

2. 自研芯片：定海智算网卡与自研交换芯片

“定海”智算网卡： 字节自研的高性能可编程网卡，支持灵活自定义 RoCE（RDMA over Converged Ethernet）拥塞算法。
自研交换芯片： 配合 Broadcom 等巨头深度定制自研交换机，具备高可编程性，支持算网联动。

三、阿里云：可编程网络与“百炼”大模型平台

阿里云在智算中心的布局是“左手抓底层高性能网络，右手抓上层 AI 应用平台”。

1. 底层网络技术：磐久（HPN）与可编程交换机

磐久智算网络架构（HPN 7.0）： 阿里云利用自研的白盒交换机，构建了超大规模的无损以太网驱动智算中心。
自研高性能网卡（Solar-RDMA）： 阿里云自研的端高性能网络协议，降低主机 CPU 的网络开销，支持超大规模的 GPU 集群低延迟并行计算。

2. 上层平台：阿里云“百炼”平台（Bailian Platform）

这是领导特别点名让你看的平台。作为运维和建设方，你要明白“百炼”是智算中心能力的“出口”。

定位： 一站式大模型应用开发平台（MaaS，Model as a Service）。
核心内容：
多模型托管： 平台不仅集成了阿里自研的通义千问（Tongyi Qianwen）系列大模型，还托管了大量主流的开源大模型（如 Llama、Mistral、智谱 GLM 等）。
企业级工具链： 提供了 RAG（检索增强生成/知识库对接）、微调（Fine-tuning）、Prompt 工程、Agent（智能体）编排等全套工具。
NL2SQL 能力（如 XiYan GBI）： 百炼平台深度优化了自然语言转数据查询的能力，让企业用户可以通过大模型直接用大白话查询复杂的数据库。

运维/建设看点： 为什么建 AIDC？就是为了支撑像“百炼”这样的平台稳定运行。百炼平台上的海量微调和推理任务，会直接转化为智算中心底层的网络流量与算力负载。

四、资料总结（快速交差指南）

可以用一句话概括这三家的技术路线差异：

腾讯云（星脉 2.0）： 主打自研网卡+自研交换机+TiTa协议的软硬一体全栈自研，适合追求超高通信效率、超大规模（10万卡）的极致训练集群。
字节跳动（DDC网络）： 技术最激进，抛弃了传统网络拓扑，利用信元交换（DDC）实现了完美的负载均衡和纳秒级故障切换，解决了大模型训练最怕的“尾部延迟”和“作业中断”问题。
阿里云（磐久+百炼）： 走的是“底座网络 + 顶层平台”的双轮驱动。底层用磐久无损网络提供算力，上层通过百炼平台把这些算力包装成大模型能力卖给企业客户。

资料检索建议：
你可以在技术社区（如腾讯云技术团队公众号、阿里云开发者社区、字节跳动火山引擎技术白皮书）中搜索以下关键词获取原厂 PDF 资料：

“腾讯云星脉网络2.0技术白皮书”
“字节跳动 DDC 智算网络生产实践”
“阿里云百炼平台架构与全栈 AI 能力”

⭐️
阿里云百炼：帮你快速地将 AI 能力组装到自己的业务中。
1. 提供阿里的各种模型接口和开源大模型，还支持用户上传自己的模型
2. 大模型瞎猜幻觉，平台提供 RAG 功能，用户能上传自己的文件，存入阿里的向量数据库
3. 提供大模型微调，用户只需要上传“输入-输出”的 prompt 对齐数据集，即可一键启动微调训练。
4. 支持开发agent，不仅能聊天还能行动，大模型调用外部工具 API 来扩展能力。（自动看天气，定行程，回邮件等） 
5. Monitoring, 能看到 token 消耗和延迟（看清性能与钱的去向）。带有内容安全过滤网（黄、恐、政等，），服务不被封

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

2026年6月GEO优化服务商潜力榜测评：五家适合中小企业选型攻略与GEO概念解析

实测显示，即动GEO能够在保证合理投入的前提下，实现企业在本地服务、制造业和B2B领域的AI推荐覆盖显著提升。GEO（Generative Engine Optimization，生成式引擎优化）正是在这样的背景下诞生的，它不仅关乎企业信息在AI平台的曝光，更决定了用户在咨询时是否能被推荐到你的品牌。在选择GEO服务商时，应重点关注以下几个方面：服务商的自研技术能力是否足够深厚，是否具备可量化的效