【专家观点】秦凤伟：AIGC时代智算中心网络协议演进与思考

炜宏资料库

229人浏览 · 2026-05-07 12:50:00

炜宏资料库 · 2026-05-07 12:50:00 发布

一、AI需求激增推动建设计算和网络基础设施****～篇幅有限，仅展示了部分
ChatGPT引爆AI ，智算算力需求激增，参数量呈指数级迭代增长推动计算与网络基础设施建设不断布局在这里插入图片描述
二、面向大模型训练，网络成为AI算力瓶颈

AI大模型以GPU集群分布式训练为基础，带来大量节点间通信消耗，网络成为AI算力“瓶颈”
当前业界主流智算中心网络技术被国外厂商垄断，网络芯片存在代际差距，网络可能成为我国AI发展的“新卡点”

集群有效算力∝｛GPU单卡算力总卡数线性加速比*有效运行时｝，随着GPU单卡算力进一步受限，获得同等算力的难度持续增加，以网强算是支撑为未来大模型训练的关键
在这里插入图片描述
三、传统DC与智算中心流量模型区别

五、IB与RoCE是目前业界主流高性能网络协议

Infini Band与RoCE是由IBTA提出的两种主流面向RDMA提供高性能交换能力的传输协议，前者从硬件级别保证网络低时延、高吞吐，后者是将RDMA应用到以太网，依赖PFC等协议实现无损，两者在路由机制、转发机制、算网能力等方面存在差异在这里插入图片描述
六、当前RoCE网络存在诸多问题，不适应大AI模型部署

现有以太网协议基础转发和调度机制，在AI模型训练场景存在天然缺陷，单纯优化上层网络协议无法解决，需对底层转发和调度机制进行革新，并推动网络芯片底层逻辑架构支持，突破无损以太性能瓶颈在这里插入图片描述
七、业界智算中心高性能网络标准组织介绍—UEC

2023年7月19日， Linux基金会成立超以太网联盟 (UEC) ，发布UE技术愿景白皮书，当前已成立四个工作组并与OCP开展合作
• 面向大模型和高性能计算场景，从物理层到软件层对以太协议栈和配套芯片产业进行革新
• 创始成员： AMD、Arista、博通、思科、 Eviden 、 HPE、 Intel、 Meta和微软，强强联合，覆盖全产业生态，核心是将“产品”标准化
在这里插入图片描述
八、GSE技术体系框架

GSE技术体系最大限度兼容以太网生态，从四层（物理层、链路层、网络层、传输层） +一体（管理和运维体系）等几个层级进行优化和增强，构建无阻塞、高带宽、低时延的新型智算中心网络，形成标准开放的技术体系，助力AI产业发展
在这里插入图片描述
九、GSE技术体系—光交换

新型光交换机与传统交换机的核心区别在于用光口代替电口，无需插光模块，可实现端口与速率无关；内部无交换芯片，点到点通信关系一定时间内固定，设备容量及端口密度与芯片无关，可用在网络中替代Spine设备，提升网络性能及建设扩容灵活性
在这里插入图片描述
十、GSE技术体系—新型拓扑

• Group与Group之间full-mash, 每个group内部可以是任意拓扑结构，如Fat-tree（ Dragonfly+）
• 人为干预控制流量转发，缺乏动态负载分担机制
• 现有网络架构缺乏网络拥塞的标准定义和远程拥塞的通知机制，难以及时获取拥塞信息。
在这里插入图片描述
十一、GSE技术体系—全调度以太网三大核心机制

中国移动提出全调度以太网（GSE）技术架构，最大限度兼容以太网生态，创新基于报文容器（ PKTC）的转发及调度机制，构建无阻塞、高带宽、低时延的新型智算中心网络，形成标准开放的技术体系，助力AI产业发展
创新以太网转发机制，实现三大核心机制转变 在这里插入图片描述
十二、GSE技术体系—NDMA

分布式系统节点间以多对多的集合通信为主，业界主流方案基于RDMA点到点高效传输，实现多对多集合通信，存在性能瓶颈在这里插入图片描述
十三、GSE技术体系—网络可靠性

AI大模型训练中所需GPU卡数量达到千卡、万卡级别，增加了网络故障概率，如何提高网络可靠性是重中之重
• 本地故障检测：本地检测时间大约为几毫秒，故障检测时间太长，无法满足模型训练需求
• 本地故障切换：在发生链路故障时，通过ECMP、 FRR等技术进行快速切换，将链路切换为备份链路。链路故障切换时间可在毫秒内实现
• 故障通知： IGP链路状态泛洪和BGP路由更新太慢，远端发生故障缺乏统一的故障通知机制
• 全局故障切换：当前只有本地故障的快速切换机制，但在响应远程故障时，仍缺乏快速切换机制
当前，AI大模型训练网络故障后，本地故障处理时间为几毫秒，远端故障处理时间为几秒，故障处理时间过长在这里插入图片描述
十四、总结与展望

• 智算中心网络的有效带宽、时延抖动、可靠性成为提升训练效率的关键因素
• 以全调度以太网为核心，开展四层（物理层、链路层、网络层、传输层） +一体（管理和运维体系）攻关，构建标准开放技术生态和评测体系，推动新型智算中心网络技术体系成熟
• 欢迎更多上下游产业伙伴加入GSE推进计划，推动GSE技术标准和生态成熟，助力AI技术发展