过去三年,人工智能产业最常被提及的词是“算力焦虑”。

从大模型竞赛开启以来,模型规模与训练集群规模持续膨胀。全球范围内,从GPT系列模型到各类基础模型训练,超大规模智算集群已成为当前全球争夺AI话语权的“主战场”,也是下一代人工智能技术发展的基础。

中国信息通信研究院报告显示,大模型训练的算力需求大约每3.5个月就会翻一番,这意味着算力的绝对规模正在以一种近乎疯狂的速度扩张。例如部分新一代模型训练预计需要部署数十万张GPU卡,超万卡规模的训练集群正在成为行业常态。

然而,当训练集群的规模跨越万卡、甚至向十万卡进军时,网络通信能力正成为更加关键的挑战。在超大规模智算集群的构建中,由于单显卡的显存已无法加载千亿级参数,“存储墙”问题愈发凸显,而随之而来的“通信墙”则成为了制约性能的关键。

研究表明,在大规模分布式训练中,网络通信耗时占比可达到30%-50%,网络性能已成为影响算力系统效率的关键变量。

当前,AI基础设施正迎来一个关键的分水岭:行业瓶颈已从算力“是否充足”转向“能否高效协同”。通信效率与网络稳定性,正成为决定训练成本与迭代速度的真正胜负手。

01

从“计算中心”到“网络集群”:

大模型基础设施正在重构

回顾高性能计算的发展历史,网络从来不是附属组件,而是系统性能的重要组成部分。

随着人工智能训练规模迅速逼近甚至超过传统高性能计算系统的规模级别,算力供给模式正从单体计算向“集群智算”转变,而算力网络也随之成为核心算力组件。在大规模智算集群中,网络面临着超高带宽、极低延迟、无损传输与易扩展这四大刚性需求。

“在大规模运行系统中,系统性能同样遵循木桶效应。”中科曙光工业计算方案总监姚浪指出,在超算与智算融合的趋势下,超算系统的效率并不等同于系统的峰值算力。

“如果网络性能不足,会出现CPU在等待数据,服务器持续耗电,但计算单元并没有真正工作。”姚浪表示,在理想情况下算力利用率理论上可以达到90%以上,但在网络瓶颈存在时,利用率可能只有50%左右,这意味着接近一半的算力会被浪费。

当前,大规模AI训练集群主要依赖RDMA(Remote Direct Memory Access,远程直接内存访问)技术来实现高效率通信。

为了解决通信效率问题,行业形成了两条主要的技术路径:Infiniband(IB)与RoCE(RDMA over Converged Ethernet)。

其中,RoCE的优势在于兼容传统IP网络生态,但其本质仍然依赖以太网体系,需要交换机、网卡及操作系统之间进行极其精密的毫秒级协同才能勉强实现无损,且延迟通常在25μs以上。

而IB则采用专门设计的通信协议栈,其网络机制天然支持低延迟和无损传输,端到端延迟可控制在微秒级(<1.5μs),因此在高性能计算和AI训练集群中被广泛采用。根据TOP500榜单统计,目前全球约60%的高性能计算系统采用IB网络架构。

IB网络作为一种专用协议栈,独立于IP网络。它采用了硬件原生的无损机制,具有原生无损传输、低延迟和高带宽的特点,相比之下,基于UDP/IP的RoCEv2虽然利用了以太网生态,但其本质上仍是有损网络,需要交换机、网卡及操作系统之间进行极其精密的毫秒级协同才能勉强实现无损,且延迟通常在25μs以上。

然而,IB产业链长期以来被海外厂商高度垄断,这成为了中国大模型产业向上突破的一道隐形屏障。

02

国产高端互联进入工程化阶段

就在这种“既要性能、又要自主”的博弈中,国产高端互联技术的工程化落地迎来了关键性节点。

3月12日,中科曙光正式发布了首款全栈自研400G无损高速网络——scaleFabric。这标志着中国在高端RDMA领域正式迈入了全栈自研的时代。

在关键性能参数上,scaleFabric基于原生RDMA架构,从底层112G SerDes IP、交换芯片、网卡到交换机、驱动与管理软件实现100%自主研发,构建起从硬件到软件的完整国产算力技术结构布局。

从技术指标来看,这一系统面向超大规模智算集群设计,其性能指标对标英伟达等国际主流产品。scaleFabric400网卡基于PCIe5.0接口,单端口带宽达到400Gbps,转发时延仅为260ns,端到端时延小于1μs,这为超大规模智算集群铺就了一条高带宽、低时延的“算力大动脉”。

在组网能力方面,scaleFabric的单子网可支持11.4万个节点组网,这一数据是目前市面主流IB产品(约4.9万节点)的2.33倍,为未来“十万卡集群”乃至更大规模的计算任务预留了充足的扩展性。

测试数据表明,在并行计算场景中,国产IB网络方案的系统效率可达到约85%,而传统RoCE方案大约为65%左右,这意味着核心计算资源利用率可以提升20%以上。

**目前,scaleFabric的性能可以达到英伟达最新一代NDR 400G网络的96-105%左右,在性能上已经完全具备和国际竞争水平。**这一技术已在国家超算互联网郑州核心节点商用集群中得到了规模化验证,支撑三套万卡级scaleX智算集群上线运行。

03

当网络成为变量,大模型训练逻辑正在改变

随着网络性能成为关键变量,大模型架构本身也在发生变化。

近年来,大模型领域出现一个明显趋势——分布式训练规模不断扩大。在大规模并行场景下,性能瓶颈往往不在“算”,而在“存”和“传”,三者任何一个失衡都会导致整体效率指数级下降。

因此,大规模智算集群系统的性能并不是单点算力问题,而是计算、存储、网络三要素的协同效率问题。依托4款核心芯片协同构建“存、算、传”紧耦合架构底座,scaleFabric能够实现1+1+1大于3的效果,最终实现整体性能的跃升,这是曙光在系统级创新上的重要成果。

科大讯飞AI工程院智算基础设施架构师鲍中帅则从产业实践角度表示,没有这些算力底座做支撑,再繁荣的AI应用也很难真正落地生根。他认为,要更好发挥国产硬件的相关效能,一方面需要深入理解算力本身的特性,另一方面也需要理解上层模型结构,将软件与硬件进行结合。理解这些并行模式,是构建高效智算基础设施的重要前提。

例如在MoE模型等架构中,模型由大量专家子网络组成,训练过程中需要频繁进行跨节点数据交换。这种架构虽然能够显著提升模型规模和能力,但同时也对网络带宽和延迟提出了更高要求。

与此同时,大规模训练系统还面临稳定性与能效挑战。鲍中帅指出,对于基础设施建设者而言,scaleX超系统通过浸没式相变液冷技术,支持860千瓦级的功率密度,显著提升了数据中心的能效水平**。他认为,这种系统性的整合优化是未来智算中心建设的标杆****。**

04

从算力焦虑到网络效率:基础设施的分水岭

人工智能产业的发展,往往伴随着基础设施体系的升级。

这种转变预示着智算中心建设正进入一个“超智融合”的新阶段。过去,超算网络与智算网络往往是割裂的。随着scaleFabric这种既能兼容超算精密计算需求、又能适配AI万卡集群通信需求的原生技术成熟,一种标准化、模块化的“集群智算”模式正在成型。算力网络不再仅仅是连接设备的导线,而是成为了与GPU同等地位的“核心算力组件”。

这个分水岭的出现,标志着大模型竞争正从“暴力堆砌”向“精细化治理”转变。在这一阶段,GPU数量不再是唯一指标。网络互联能力、系统稳定性以及算网协同能力,正在成为决定基础设施能力的关键因素。

另一方面,高速网络作为算力基础设施的核心关键技术,其自主可控性直接关系到国家算力基础设施的安全与发展质量。国产原生RDMA网络的问世,打破了海外巨头在高端智算互联领域的垄断,推动了国产算力生态的闭环。

05

网络效率为智算发展带来确定性

在人工智能的长跑中,算力是体力,算法是技巧,而网络则是连接大脑与四肢的神经系统。当全球AI竞争进入“万卡时代”的深水区,单纯依靠算力堆叠已难以为继。

国产全栈自研400G无损高速网络的落地,不仅为超大规模智算集群铺就了算力大动脉,更向行业明确了一个信号:网络效率已成为基础设施演进的新标尺。

中国科学院计算技术研究所研究员王展指出,真正能够推动人类向前发展的动力往往首先来自科学领域,如果把科学研究的第一到第四范式整合起来,再引入人工智能方法,科学研究有可能演化出“第五范式”。在这一范式中,AI可以把理论、实验和计算叠加在一起,形成一个能够加速科学进展的回环体系——“理论+计算+智能”的回环。

作为首批应用scaleFabric的团队,王展通过分子动力学模拟实测发现,通信侧是强可扩展计算的主要瓶颈。如果要让AI真正参与科学发现,就需要一种融合计算、数据与智能的基础设施体系,而高效的网络互联能力正是其中不可或缺的关键组件。

这里给大家精心整理了一份全面的AI大模型学习资源包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2026行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

7. 资料领取:全套内容免费抱走,学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:

👇👇扫码免费领取全部内容👇👇
在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐