OpenAI发布MRC协议:为何万卡训练集群需要一套新的网络规则?

当我们讨论大模型训练的瓶颈时,算力和数据往往占据焦点,但网络通信层的效率同样决定着整体训练速度。2026年5月,OpenAI通过OCP(开放计算项目,Open Compute Project)发布了一项名为MRC(Multipath Reliable Connection,多路径可靠连接)的全新超算网络协议。这不是一次产品发布,而是OpenAI将自家超算基础设施的核心网络经验向行业开放——这件事本身就值得深入解读。

MRC的诞生背景,是AI训练规模从数百GPU扩展到数万乃至数十万GPU这一质变。在这个量级上,现有的主流网络协议——无论是基于InfiniBand的RDMA还是基于以太网的RoCE——都在面临设计上的根本性压力。OpenAI选择在此时将自己的解决方案贡献给开放标准组织,意味着这套方案在内部已经过充分验证,同时也意味着整个行业正在面对同一个无法回避的网络挑战。


AI训练集群的网络到底卡在哪里

拥塞:集合通信的天然敌人

大模型训练依赖大量的集合通信操作(Collective Communication),包括AllReduce、AllGather、ReduceScatter等。这些操作要求集群中数千乃至数万张GPU在特定时间点上协同交换梯度或激活值。这种通信模式与传统数据中心流量有本质不同——它不是零散的点对点请求,而是周期性爆发的大流量同步操作。

当数千个节点同时向同一批目标发送数据时,网络交换机上的缓冲区瞬间被打满,形成拥塞崩溃(Congestion Collapse)。拥塞不只是降低带宽,更会触发大量重传,让延迟从微秒级跳升到毫秒级,进而导致整个训练步骤的同步屏障(Barrier)被迫等待,GPU大面积空闲。在万卡集群中,哪怕0.1%的额外等待时间,一年下来损失的算力成本都是天文数字。

链路故障:训练任务的隐形杀手

另一个关键问题是故障恢复。在由数万台服务器、数十万根光纤和数千台交换机构成的超算网络中,单点硬件故障是常态而非例外。传统RDMA协议(如InfiniBand的RC,Reliable Connection)是基于单一路径、单一连接的设计:一对通信节点之间建立一条专用QP(Queue Pair),如果这条路径上的任何一个中间节点出现故障,整个连接必须重建,重建期间对应的训练任务被迫中断或回滚。

在千卡规模下,这或许是可以接受的偶发事件;但在十万卡规模下,网络中某个节点出故障的概率按小时计算趋近于1。如果每次故障都导致全集群的训练任务中断,整体有效训练时间会大幅萎缩。这正是OpenAI在实际运营超大规模集群时必须正面解决的工程问题。

路径利用率:胖树拓扑的潜力未被充分释放

现代超算集群普遍采用胖树(Fat-Tree)或Clos网络拓扑,这类拓扑在核心层提供了大量等价路径(ECMP,Equal-Cost Multipath)。理论上,流量可以均匀分散到所有可用路径上,实现接近满线速的双向带宽。但现实中,基于哈希的ECMP负载均衡粒度是"流"级别的,同一条TCP/RDMA连接的所有数据包会被固定哈希到同一条路径。这导致某些路径严重拥挤、某些路径几乎闲置,多路径的硬件投资无法充分发挥效益。


MRC的核心设计思路

多路径并行传输:把鸡蛋分散放

MRC的名字已经点明了核心理念——多路径(Multipath)。与传统RC(Reliable Connection)的单路径绑定不同,MRC在协议层面原生支持将单一逻辑连接的数据分散到多条物理路径上同时传输。这不是简单的链路聚合(Link Aggregation),而是在RDMA语义保留的前提下,对数据包进行路径感知的精细调度。

具体来说,MRC维护多条活跃的子路径(Sub-path),发送端可以根据每条子路径的实时拥塞状态动态调整数据分配比例。当某条路径出现拥塞信号时,流量会迅速迁移到更空闲的路径,而不是在拥塞路径上堆积重传。这对集合通信操作特别有利:AllReduce等操作的流量本身就具备可并行性,多路径传输可以在更短的时间内完成同等体量的数据交换。

快速故障切换:不让单点故障影响全局

MRC在可靠性机制上的设计重点是路径级别的故障隔离,而非连接级别的全量重建。当某条子路径检测到故障(通过心跳超时、显式拥塞通知或交换机反馈),MRC可以将该路径上尚未确认的数据包快速切换到其他健康路径重传,整个逻辑连接保持存活,上层应用感知到的只是短暂的性能抖动,而不是连接中断。

这与传统InfiniBand RC的故障处理有本质区别。传统方式下,链路故障→QP进入Error状态→上层MPI/NCCL检测到错误→触发检查点回滚或任务重启,这个链条的端到端延迟往往以分钟计。MRC将这个过程压缩到毫秒级的路径级切换,对训练任务几乎透明。

与RDMA语义的兼容性

值得关注的是,MRC并非要替换RDMA,而是在RDMA语义层之上或旁边构建多路径能力。AI训练框架(如PyTorch的NCCL后端、JAX的分布式通信层)对底层网络的期望是高带宽、低延迟、可靠传输,MRC在保留这些特性的同时,增加了多路径调度和快速故障恢复能力。这意味着现有的训练代码理论上不需要大幅修改,网络层的改善可以透明地传递给上层应用。

这也是MRC与早期一些多路径RDMA研究方案的重要区别:学术界对多路径RDMA的探索已有多年,但工程化落地往往面临与现有NCCL/MPI库的兼容性问题。OpenAI将MRC提交给OCP标准化,意味着他们在内部已经解决了这些兼容性工程问题,并希望通过标准化推动整个生态跟进。


为何选择通过OCP开放标准发布

OCP(Open Compute Project)是由Facebook(现Meta)于2011年发起的开放硬件标准联盟,成员涵盖Microsoft、Google、Intel、AMD、Nvidia等主要科技公司。通过OCP发布技术规范,意味着这项技术进入了一个由行业共同维护和演进的标准轨道,而不是OpenAI的私有协议。

这个选择背后有几层逻辑。

第一,生态构建:MRC要真正发挥价值,需要网卡(NIC)、交换机固件、驱动程序的协同支持。只有进入开放标准,才能让Nvidia ConnectX系列、Broadcom Tomahawk、Arista/Cisco等主流硬件厂商在产品路线图中纳入MRC支持。单凭OpenAI自己的采购量,无法驱动整个供应链。

第二,可信度背书:开放标准意味着技术细节接受同行审查。OpenAI选择这条路,是在用公开透明换取行业信任,这对MRC的广泛采用至关重要。

第三,竞争格局:在超算网络领域,InfiniBand长期由Nvidia(收购Mellanox后)主导,这让大型云厂商和AI公司在供应链上存在单一来源风险。MRC如果能够在以太网RDMA(RoCEv2)基础上构建出与InfiniBand媲美的可靠性和性能,将为"以太网路线"提供关键的技术背书,有助于打破InfiniBand的生态锁定。


对行业和开发者的实际影响

云服务商与超算运营商

对于AWS、Azure、Google Cloud以及国内的阿里云、腾讯云等提供GPU集群服务的云厂商来说,MRC提供了一条在现有以太网基础设施上提升大规模训练集群可靠性的路径。无需全量替换为InfiniBand,通过软件协议升级和网卡固件更新,就可能获得接近专用高性能互联的故障恢复能力。这对于已经在以太网方向大量投资的厂商来说,是非常有吸引力的选项。

AI训练框架开发者

NCCL(Nvidia集合通信库)、DeepSpeed、Megatron-LM等训练框架的网络后端目前主要针对InfiniBand和RoCEv2调优。如果MRC最终成为主流网络层标准,这些框架需要在通信调度策略上做出适配——例如,当底层支持动态多路径时,框架层的流控逻辑和重传策略可以相应简化,让框架专注于集合通信的语义优化,而将路径管理交给MRC层处理。

模型训练的实际成本

对于在大规模集群上训练前沿模型的团队,网络效率的提升直接转化为训练成本的下降。一个常被引用的经验数字是:在万卡训练中,网络拥塞和故障恢复损耗导致的GPU有效利用率损失可能在5%到20%之间,具体取决于模型结构、并行策略和网络拓扑。如果MRC能将这一损耗显著压缩,对于一次需要数千万美元算力投入的大模型训练来说,节省的成本相当可观。

开放标准对中小型AI公司的意义

将MRC纳入OCP标准,还有一个容易被忽视的意义:它降低了中小型AI公司和研究机构在构建自有集群时的技术门槛。过去,InfiniBand的高可靠性是以较高的硬件成本和专有生态锁定为代价的。如果基于通用以太网的MRC能够在开放标准框架下提供类似的网络韧性,那么更多组织可以用更低的成本构建出具备生产级稳定性的AI训练基础设施。


值得持续关注的几个问题

MRC目前通过OCP发布的是协议规范,距离大规模落地还有若干关键环节需要跟进。

硬件支持时间线:主流网卡和交换机厂商何时在产品中提供MRC支持,这决定了技术从纸面到实用的速度。

与现有NCCL/MPI的集成深度:MRC能在多大程度上对训练框架透明,还是需要框架层做显著改动,这影响迁移成本。

性能数据的公开验证:OpenAI内部的测试数据是否会公开,第三方能否在自己的集群上复现性能提升,这对行业信心至关重要。

从更宏观的视角看,MRC是AI基础设施层"去黑盒化"趋势的一个缩影。随着AI训练规模持续扩大,越来越多此前被视为专有Know-how的底层技术——无论是网络协议、存储系统还是调度框架——正在通过开放标准组织走向行业共享。这个趋势对整个AI基础设施生态的长期健康发展是有利的。


更多AI技术资讯与深度解读,欢迎关注「闻速视界」。


参考来源

  • 原文:《Unlocking large scale AI training networks with MRC (Multipath Reliable Connection)》
  • 来源:OpenAI News
  • 发布时间:2026年05月05日
  • 链接:https://openai.com/index/mrc-supercomputer-networking

免责声明:本文为基于公开资讯的原创解读,仅供学习交流使用,不代表原作者立场。文中涉及的产品名称、商标及版权归原权利人所有。如有侵权,请发邮件至 919964299@qq.com,核实后将及时处理。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐