智算中心(AIDC)的建设和运维
一、 英伟达(NVIDIA)GPU 核心知识体系
在 AIDC 运维中,不要只看显卡型号,要从芯片架构、产品形态、互联拓扑三个维度去理解。
1. 当前及下一代主流微架构(Architecture)
- Hopper 架构(主力成长期): H100 / H200。其中 H200 是目前大模型推理的明星,搭载了高达 141GB 的 HBM3e 显存,带宽达 4.8 TB/s。
- Blackwell 架构(最新爆发期): B100 / B200 / GB200。这一代引入了第二代 Transformer 引擎,全面推行 FP4 精度,是当前 AIDC 扩建和新建的绝对核心。
2. 必须分清的两种硬件形态(Form Factor)
同一款芯片(如 H100/H200),厂商出货时通常有两种完全不同的物理形态,这决定了服务器的内部结构:
- SXM 5 / SXM 6(OAM 规范): 针脚式模块。它们不插在普通的 PCIe 插槽上,而是直接焊接/固定在厂商定制的 HGX 基板(Baseboard)上。通常是 4 卡或 8 卡一组。特点: 功耗极高(单卡 700W+)、带宽极大,必须配合大面积风冷或液冷板。
- PCIe(插卡式): 标准的标准服务器扩展卡(如 H200 NVL)。直接插在服务器主板的 PCIe 5.0 插槽上。特点: 功耗稍低(通常 600W 左右),部署灵活,适合中小规模推理或通用服务器升级。
3. AIDC 运维的灵魂:互联技术(Interconnect)
在 AIDC 中,单卡能力是次要的,多卡协作的带宽才是瓶颈。你需要重点看以下两项:
- NVLink & NVSwitch: 解决机箱内部(Intra-node) GPU 之间的通信。比如 8 卡 HGX H200 节点内,通过 NVSwitch 实现了全网状(All-to-All)互联,单卡双向带宽高达 900 GB/s。
- InfiniBand(IB)与 RoCE(Spectrum-X): 解决机柜之间(Inter-node)的通信。通常服务器会配置 ConnectX-7(400Gbps NDR)或最新的 ConnectX-8(800Gbps XDR)网卡,走无损网络拓扑(如 Fat-Tree)。
二、 主要服务器厂商及其主力 AI 硬件
目前市场上的 AI 服务器主要分为两大派系:国际大厂(通用与定制化兼顾) 与 国内主力厂商(信创与本土智算中心主力)。看资料时,重点关注他们的 8卡 GPU 服务器 和 整柜液冷解决方案。
1. 国际主流厂商
-
超微(Supermicro,SYS-821GE-TNHR 等系列):
-
看点: “硅谷速度”,英伟达最新的通用基板(如 HGX H200/B200)他们总是最先推出整机。其 4U/8U 机架式服务器在海外和很多托管机房非常普及。
-
戴尔(Dell PowerEdge XE9680 / XE9880):
-
看点: 旗舰级 8 卡 AI 服务器,风冷与液冷设计非常成熟。重点看其模块化设计和内置的 iDRAC 远程管理系统(运维必用)。
-
HPE(Hewlett Packard Enterprise,Cray Supercomputing):
-
看点: 长于大规模超算集群整合,重点看他们和英伟达联合开发的 GB300 / GB200 NVL72 机柜级整体交付方案。
2. 国内主力厂商(AIDC 建设的绝对中坚)
-
浪潮信息(Inspur,如 NF5688M7 / NF5488M7):
-
看点: 国内 AI 服务器市场份额极高。NF5688M7 是典型的 8 卡配置,支持国内多种算力芯片及英伟达架构。去看他们的高密度散热设计(特别是冷板式液冷)资料。
-
新华三(H3C,UniServer R5500 G6):
-
看点: 紫光旗下,国内企业级和运营商市场主力。重点看他们针对大模型训练场景下的 PCIe 拓扑和智能运维管理软件(OM)资料。
-
超聚变(FusionServer,2488H V7 / 智算整柜):
-
看点: 承接了原华为服务器的优良血统,主打高可靠性、高能效比。他们的全液冷整机柜解决方案在业界很有代表性。
-
中兴、宁畅等: 关注定制化节点的交付能力及高性价比机型。
三、 从 AIDC 建设与运维视角,你应该重点看什么?
看厂商的 PDF 胶片和白皮书时,不要只看跑分(TFLOPS),运维和建设更关注物理边界和接口:
1. 供电与功耗管理(Power)
- 单机功耗: 一台标准的 8 卡 SXM H200 服务器,加上双路 CPU 及满配网络,整机功耗高达 8kW ~ 10kW。
- 整柜功耗: 如果是 Blackwell 时代的 GB200 NVL72 整柜交付,一个机柜的功耗可能高达 120kW ~ 130kW!
- 你需要看: 传统的 3kW/5kW 普通机柜根本无法承载。去看资料里关于 三相供电(3-Phase Power)、母线排(Busbar)、以及 PDU(电源分配单元) 的规格要求。
2. 散热与制冷(Cooling)
- 风冷(Air Cooling): 10kW 已经是风冷的极限,服务器内部的风扇会像尖叫一样以万转速度运行,对机房风道(冷热隔离)要求极高。
- 液冷(Liquid Cooling): 现代 AIDC 的标配。主要去看冷板式液冷(Direct Liquid Cooling, DLC)。
- 你需要看: 什么是 CDU(冷量分配单元)、二次侧/一次侧管路、快换接头(Quick Disconnect)防漏液技术。
3. 重量与空间(Weight & Space)
- 一台 8 卡 AI 服务器通常重达 60kg - 80kg,需要 2-3 人或专用升降机上架。
- 一个 GB200 NVL72 机柜重达 1.36 吨。
- 你需要看: 机房的楼面承重(Floor Loading)指标(通常需要加强结构或专用底座),以及非标准的机柜尺寸(如 OCP ORv3 标准的 600mm/21英吋宽机柜)。
4. 带外管理(OAM / IPMI)
- 这是运维的“救命稻草”。
- 你需要看: 各家厂商的带外管理芯片(如 Dell iDRAC, 浪潮 ISBMC, 超聚变 iBMC)。了解如何在系统崩溃、网络断开时,通过带外网络进行远程开关机、固件更新、查看传感器温度和功耗。
四、
| 维度 | 方案 A(如 浪潮 8*H200 SXM) | 方案 B(如 戴尔 8*H200 PCIe) | 方案 C(如 最新 Blackwell 液冷整柜) |
|---|---|---|---|
| 单节点算力/显存 | 8 * 141GB HBM3e | 8 * 141GB HBM3e | 72 * Blackwell GPU |
| 机箱内互联 | NVSwitch (900GB/s) | PCIe Gen5 + Bridge (较慢) | NVLink 5 (130TB/s 总带宽) |
| 单机最大功耗 | ~10 kW | ~7 kW | ~120 kW (整柜) |
| 制冷要求 | 风冷高要求 / 建议液冷 | 风冷即可 | 必须纯液冷 |
| 对应数据中心要求 | 传统机房需改造风道/提高电量 | 传统机房直接上架 | 必须新建/重度改造液冷智算机房 |
💡 结束语:
带着“算力怎么塞进机柜(空间)”、“电怎么供得上(电力)”、“热怎么排得出去(散热)”、“挂了怎么远程修(运维)”这四个问题去看资料,你的进度会比盲目背参数快十倍。
一、 风冷 vs 液冷:核心区别
⭐️
液冷耗电少,远低于风扇的功耗,单机柜能支持100 kW ~ 140 kW 以上,是风冷的数倍
初期建设成本高,后期运维复杂度高
1. 散热效率与物理极限
- 风冷: 依靠高转速风扇带动空气对流,通过散热片将热量带走。空气的导热系数很低,面对单卡功耗超过 700W(如 H100/H200 SXM)、整机功耗达到 10kW 的 AI 服务器,风冷已经逼近物理极限。为了散热,服务器风扇会满负荷轰鸣,消耗大量“无用”的电能。
- 液冷: 利用液体(通常是去离子水、乙二醇或特殊绝缘液体)的高比热容。液体的导热能力是空气的 25倍 左右,带走相同热量消耗的泵功耗远低于风扇功耗。
2. 常见技术形态
- 风冷: 主要是机房级对流。通过封闭冷/热通道(Aisle Containment),配合机房的大型精密空调(CRAC)和列间空调(In-Row AC)进行循环制冷。
- 液冷: 目前 AIDC 最主流的是冷板式液冷(Direct Liquid Cooling, DLC)。
- 液体不直接接触芯片。
- 定制的铜制液冷板(Cold Plate)直接贴在 GPU 和 CPU 表面,液体在管路内流动把热量带到机柜外部的 CDU(冷量分配单元)。
- 注:另一种是浸没式液冷(Immersion Cooling),将整机泡在绝缘液体里,技术更极致但维护成本极高,目前非主流。
3. 核心参数对比矩阵表
| 对比维度 | 风冷方案(Air Cooling) | 冷板式液冷方案(DLC) |
|---|---|---|
| 单机柜承载极限 | 通常上限为 15 kW ~ 20 kW | 可轻松支持 100 kW ~ 140 kW 以上 |
| 机房 PUE 指标 | 偏高(通常在 1.3 ~ 1.5 之间) | 极低(可实现 PUE < 1.15,非常符合绿色节能政策) |
| 初期建设成本 (CAPEX) | 低。技术极其成熟,标准机房通用。 | 高。需要布置一次侧/二次侧管路、CDU、室外冷却塔,且服务器本身更贵。 |
| 后期运维成本 (OPEX) | 高。空调电费高昂,风扇易损坏。 | 低。极大地节省电费(年省电可达 20%-30%)。 |
| 运维复杂度 | 低。直接插拔服务器,无漏液风险。 | 高。需要监控水质、压力,使用快换接头(QD),需防范漏液。 |
| 噪音水平 | 极大(AI 服务器满载时噪音超过 85-90 分贝)。 | 极小(服务器内部取消或大副减少高转速风扇)。 |
二、 智算中心(AIDC)如何选择?
作为运维和建设方,选择哪种方案不是盲目追求新技术,而是要根据芯片型号、机房现状、商务预算来进行“卡线选择”。
我们可以通过以下三个决策步骤来决定:
决策 1:看算力芯片的功耗(硬性门槛)
- 无脑选风冷: 如果你们托管或建设的机房主要跑的是中低端推理卡(如 NVIDIA L4、L40S,或者单卡功耗在 300W-400W 以下的 PCIe 卡),标准风冷+列间空调完全足够,没必要上液冷增加复杂度。
- 风冷极限/液冷推荐: 如果是 8 卡 H100 / H200 SXM 平台(整机约 10kW)。风冷可以勉强压住,但机柜功率密度必须拉大(比如一个机柜只敢放 1-2 台服务器,旁边空着),此时能上液冷尽量上液冷。
- 强迫选液冷(强制性): 如果你们公司开始引入英伟达最新的 Blackwell 架构(如 GB200 NVL72 整柜),由于单柜功耗直接飙到 120kW,风冷在物理上已经完全不可能实现。英伟达官方直接采用纯液冷设计,你没有选择,机房必须具备液冷建设和运维能力。
决策 2:看机房是“新建”还是“改造”
- 新建智算中心: 坚定走液冷(或风液混合)路线。 政策对新建大规模型智算中心的 PUE 限制非常死(通常要求在 1.25 甚至 1.2 以下)。新建机房从地基承重、地下管路、室外冷却塔开始就为液冷设计,能实现利益最大化。
- 利旧/老机房改造: 优先考虑风冷或局部微改造。 老旧机房的地板承重不够(液冷整柜极重)、层高不够、且没有预留液体管道。如果一定要上高功耗 GPU,可以考虑引入后门热交换器(Rear Door Heat Exchanger, RDHx)——这是一种“折中”的风液混合方案,把液冷盘管做在机柜门上,用风扇吹过水墙,不需要改造服务器内部。
决策 3:看公司的资金链与算力生命周期(TCO 算账)
- 如果项目是短期租用、试错性质的集群,或者资金流吃紧,选择风冷可以省下大笔初期雷达建设成本(CAPEX)。
- 如果项目是国家级智算中心、大型互联网大模型训练基地,预期运行 3-5 年以上,选择液冷。虽然第一年投入大,但通过省下来的巨额电费(OPEX),通常在 1.5 到 2 年内就能把初期高出的成本收回来,后面全是净赚。
三、 给运维同学的避坑提示
如果你被分配去运维这两种机房,工作中要注意的侧重点完全不同:
- 运维风冷机房: 天天盯着“气流组织”。检查盲板(Blanking Panel)有没有漏装(防止冷热风短路)、看滤网有没有堵塞、重点关注机柜顶部的服务器会不会因为“热岛效应”局部过热(Thermal Throttling)导致 GPU 降频。
- 运维液冷机房: 天天盯着“压力与漏液”。学会看 CDU 的压力表和流量计。液冷最怕漏液(Leakage),虽然现在都用绝缘或低导电率的水,但漏水依然是灾难。你需要定期巡检快换接头(Quick Disconnect)有没有渗水,查看机柜底部的漏液检测绳(Leak Detection Rope)有没有告警。
一、 液冷后期运维“复杂度高”,具体指什么?
⭐️
防漏液,否则短路
液冷管路内不能有藻类和水垢
服务器和水管的接头管理
换内存等机箱内部件还要伺候好液冷板和水管
风冷运维就像维护家里的老风扇,坏了拔掉换一个就行;而液冷运维更像是维护一个微型的“城市供水与化学工厂”。它的高复杂度主要体现在以下四个方面:
1. 致命的“漏液”防范与应急(Leakage)
液体是 IT 设备的天然克星。虽然液冷系统使用的是高纯度去离子水、乙二醇混合液或绝缘油,但一旦发生大面积泄漏,依然会导致设备短路损坏。
- 运维动作: 运维人员必须天天盯着机柜底部的漏液检测绳(一根遇水阻值会发生变化的特殊线缆)。一旦报警,需要立刻排查是哪个接头在渗水。
- 高压高风险: 液冷管路内部是有压力的(通常在 2∼4 bar2 \sim 4\text{ bar}2∼4 bar)。在对服务器进行带电热插拔时,如果操作不当,液体可能会直接喷溅出来。
2. 水质监控与化学维护(Water Quality)
液冷管路内部绝对不能长藻类、不能有水垢、不能腐蚀铜制的冷板。
- 运维动作: 定期(如每季度)对冷却液进行抽样检测,测试其 pH 值、电导率、浊度以及杀菌剂浓度。如果指标超标,必须往系统里添加除垢剂、杀菌剂,或者整体换水(排污与补水)。这在传统风冷机房是完全没有的概念。
3. 接头管理与“打冷枪”(Quick Disconnect)
服务器连接到机柜背后水管(Manifold)依靠的是快换接头(QD)。这种接头内部有弹簧阀门,插上导通,拔出断开。
- 运维动作: 快换接头的内部橡胶圈(O型圈)在长期的 50°C-60°C 水温下会老化。如果频繁插拔服务器,接头可能卡死或闭合不严,俗称“打冷枪”(液体滋出来)。运维需要备有大量的备件,并具备熟练的打压、排气(Bleeding)技能(防止管路进空气产生气阻)。
4. 设备重、空间小,纯体力活
液冷服务器(如 NVIDIA HGX 平台)里面塞满了密密麻麻的硬质或软质水管。
- 运维动作: 哪怕只是服务器里一个普通的内存(DIMM)或者网卡坏了,风冷服务器直接开盖就能换。而液冷服务器由于上方压着厚厚的液冷板和水管,运维人员必须先断开水路、用专用工具把管路里的残液吹扫干净,然后小心翼翼地拆卸液冷板,更换完内存后,还要重新涂抹导热膏、重新安装液冷板、重新打压测漏。
二、 为什么功耗飙到 120kW 后,风冷在物理上完全不可能实现?
⭐️
物理上风不可能实现,小飓风导致冷热风混合,风扇消耗的电能超过cup
空间费用,需要大量风道空间,一个机柜两台机器,浪费钱
这不仅仅是“风扇不够大”的问题,而是受限于空气的物理特性。
1. 空气的“载热能力”太差
要把 120kW 的热量带走,根据热力学公式,我们需要极大的风量(Volumetric Flow Rate)。
如果要用空气压住一个 120kW 的机柜,维持合理的温差(比如进风 25°C,出风 40°C),每小时需要流过上万立方米的空气。
- 物理冲突 1(风速与噪音): 要把这么多空气吹进一个标准机柜,服务器里的风扇必须以 两万转以上 的速度狂转。这会产生超过 100 分贝的恐怖噪音,且风扇自身消耗的电能甚至会超过 CPU 本身。
- 物理冲突 2(风道结露与飓风): 机房里会形成小型“飓风”,强烈的对流会导致冷热风严重混合。而且为了提供足够的冷风,空调出风口温度必须极低,这会导致机房内部极易结露,直接烧毁电路。
2. 空间与密度的矛盾
120kW 相当于 20 多台家用大 3 匹空调同时开到最大。
- 如果用风冷,为了让空气能吹透芯片,服务器内部必须留出大量的风道空间,散热片要做得巨大。
- 这样一来,一台服务器可能要占用 8U 甚至 10U 的空间。一个机柜顶多放 2 台服务器,高昂的数据中心机位费(租金)和线缆成本会直接让项目亏本。
相比之下,液冷管路只有手指粗细,却能带走十倍于空气的热量,这才能让 72 颗 Blackwell GPU 挤在一个机柜里。
三、 TCO 算账:电费和初期建设成本怎么对比?
这就是行业里常说的 TCO(Total Cost of Ownership,总拥有成本)分析。我们用一组真实的行业概算来算一笔账:
假设我们要建设一个拥有 100 个机柜 的中型智算中心:
1. 初期建设成本(CAPEX)—— 液冷更贵
- 风冷机房: 买常规精密空调、做标准地板和风道。100 柜的基建开销假设是 5000 万元。
- 液冷机房: 要买 CDU(一台几十万)、铺设昂贵的二次侧不锈钢/铜管路、建设室外大型冷却塔、做防漏液系统,且液冷版的服务器本身(带冷板和快换接头)也比风冷版贵。100 柜的基建开销可能高达 8000 万元。
- 差价: 液冷比风冷在初期要多花 3000 万元。
2. 后期运营电费(OPEX)—— 液冷极省
AI 服务器是 24 小时满载运转的“吞电巨兽”。
- 算算电费差距:
- 风冷机房 PUE 约为 1.4(意味着服务器用 1 度电,空调要用 0.4 度电来散热)。
- 液冷机房 PUE 约为 1.1(空调/水泵只需要 0.1 度电)。
- 假设这 100 个机柜的总算力功耗是 5000 kW5000\text{ kW}5000 kW(5兆瓦)。
- 风冷年总耗电(含制冷): 5000×1.4×24×365=61,320,000 度5000 \times 1.4 \times 24 \times 365 = 61,320,000\text{ 度}5000×1.4×24×365=61,320,000 度
- 液冷年总耗电(含制冷): 5000×1.1×24×365=48,180,000 度5000 \times 1.1 \times 24 \times 365 = 48,180,000\text{ 度}5000×1.1×24×365=48,180,000 度
- 每年省电: 13,140,000 度13,140,000\text{ 度}13,140,000 度。按工业电费 0.7 元/度计算,液冷每年光电费就能省下约 920 万元。
3. 回本周期(ROI)
回本年限=初期多花的钱 (3000万)每年省下的电费 (920万)≈3.26 年\text{回本年限} = \frac{\text{初期多花的钱 (3000万)}}{\text{每年省下的电费 (920万)}} \approx 3.26 \text{ 年}回本年限=每年省下的电费 (920万)初期多花的钱 (3000万)≈3.26 年
结论: 只要这个智算中心连续运行超过 3.2 年,液冷省下来的电费就已经把初期多砸的钱全部赚回来了。由于大模型算力一般会规划 3-5 年的生命周期,所以从长期来看,液冷在商业上反而是更便宜的。
四、 纠正一个小误解:“初期雷达建设成本”是什么?
哈哈,这里你可能不小心看错或者被输入法误导了。在数据中心和服务器行业里,这里指的不是“雷达”,而是 基建 或者 初投。
如果你是在某些行业资料里听到了类似“lei da”的发音,或者拼写相近的词,它大概率是以下两个词之一:
- “基达” / 基建成本(Infrastructure Cost): 指的是机房的土建、管路、承重等基础工程。
- Capex(Capital Expenditure): 行业术语,专指“资本支出” / “初期投入”。在中文口语交流中,有时会被错读或错译。
在数据中心里,确实有雷达(比如机房安防用的激光雷达,或者微波雷达用来检测有没有外人溜进机柜阵列),但那个成本极低,绝对算不上“大笔成本”。这里领导或资料的核心意思就是:选择风冷,能省下大笔“初期机房管路和冷源设备的建设钱”。
一、NVIDIA 数据中心 GPU
这是 AIDC 的核心算力来源,先建立架构演进的时间线,型号命名就有逻辑了。
架构代际(按发布时间):
- Volta(2017):V100,现在基本退役
- Turing(2018):T4,推理卡
- Ampere(2020):A100 是上一代训练主力
- Hopper(2022):H100 / H200,目前存量最大的训练/推理卡
- Blackwell(2024):B200 / GB200,当前最新主力,也是新建 AIDC 的重点
- Rubin(预计 2026 前后):下一代,名字可以先记住
需要重点掌握的几张卡:
| 型号 | 架构 | 显存 | 互联带宽 | 功耗(SXM) | 定位 |
|---|---|---|---|---|---|
| A100 | Ampere | 40/80GB HBM2e | NVLink 600GB/s | 400W | 上代训练 |
| H100 | Hopper | 80GB HBM3 | NVLink 900GB/s | 700W | 训练主力 |
| H200 | Hopper | 141GB HBM3e | 900GB/s | 700W | H100 加大显存版 |
| B200 | Blackwell | 192GB HBM3e | NVLink 1.8TB/s | ~1000W | 当前旗舰 |
| GB200 | Blackwell | Grace CPU + 2×B200 | — | 整柜级 | 超级芯片方案 |
几个关键概念你必须搞清楚,面试或汇报都会问到:
NVLink / NVSwitch:GPU 之间的高速直连总线(远快于 PCIe)。NVSwitch 是把多张 GPU 全互联的交换芯片。这是英伟达相对竞品最深的护城河之一。
HGX vs DGX vs MGX:HGX 是 NVIDIA 提供给服务器厂商的"GPU 基板"(一般 8 卡一块),各厂商基于它做自己的整机;DGX 是 NVIDIA 自己卖的整机品牌;MGX 是模块化参考设计。你接触的多数第三方服务器都是基于 HGX 做的。
GB200 NVL72:这是 Blackwell 时代最重要的产品形态——把 72 张 GPU 通过 NVLink 做成"一个机柜即一台超级计算机",单柜功率可达 120kW 以上,且强制液冷。新建 AIDC 几乎绕不开它,重点研究。
二、NVIDIA 的"全家桶"生态
光看 GPU 不够,AIDC 是整套系统。这几块也要了解:
- Grace CPU:基于 ARM 的服务器 CPU,常与 GPU 组成 Superchip(GH200、GB200)
- 网络是重中之重:InfiniBand(Quantum 系列,NDR 400Gb/s)和 Spectrum-X 以太网两条路线,决定集群能否高效扩展。ConnectX 是网卡,BlueField 是 DPU(卸载网络/存储/安全任务)
- 软件栈:CUDA、NCCL(多卡通信库)、以及 AI Enterprise 软件套件
记住一句话:英伟达卖的不是卡,是"计算-网络-软件"整套体系,这也是它毛利高的原因。
三、主要服务器厂商
整机厂商基于 HGX 平台做集成、散热、供电和交付。分国际和国内两条线。
国际厂商:
- Supermicro(超微):GPU 服务器出货量和机型覆盖最广,AIDC 里曝光率极高
- Dell:PowerEdge XE 系列
- HPE:收购 Cray 后在超算/AI 集群有积累
- Lenovo(联想):ThinkSystem
- Cisco:UCS
国内厂商(如果公司在中国,这条线更重要):
- 浪潮信息:国内 AI 服务器市场份额长期第一
- 新华三(H3C)
- 宁畅(Nettrix)
- 中科曙光:液冷做得早
- 华为昇腾 Atlas:注意这是自研 NPU 路线,不用英伟达 GPU,属于"国产替代"另一条技术栈
ODM 厂商(云大厂直接找的代工):广达(QCT)、纬创、富士康等。如果你们服务超大规模客户,会接触到这层。
看厂商资料时,重点对比这几个维度:单机支持几张 GPU、支持风冷还是液冷、整机功率、网络配置(几张 ConnectX/几口 InfiniBand)、以及交付和售后能力。
四、AIDC 基础设施(运维方向你尤其要看)
这是"建设和运维"的真正落点,也是 AI 数据中心区别于传统 IDC 的地方。核心矛盾就一个字:热。
功率密度:传统机柜单柜 5–10kW,AI 训练机柜动辄 30–60kW,GB200 NVL72 整柜超过 120kW。这直接颠覆了机房的供电和散热设计。
散热路线(务必搞懂三种):
- 风冷:传统方式,到 30kW 左右就吃力了
- 冷板式液冷:冷却液流过 GPU/CPU 上的冷板,是目前主流过渡方案,GB200 默认采用
- 浸没式液冷:整机泡在绝缘液里,密度最高但改造成本大
供电链路:市电 → 变压器 → UPS → 配电 → 机柜 PDU,AI 场景下还要关注高压直流、备电时长、以及瞬时功率波动(GPU 负载抖动很大)。
关键指标:PUE(能效,越接近 1 越好)、机柜功率密度、制冷方式、可用性等级(Tier 等级)。
网络拓扑:AI 集群普遍用 Fat-Tree / Spine-Leaf 这类无阻塞架构,还要理解"东西向流量"为什么这么大(多卡训练时 GPU 间海量通信)。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)