智算中心（AIDC）的建设和运维

The Straggling Crow

447人浏览 · 2026-06-01 18:14:00

The Straggling Crow · 2026-06-01 18:14:00 发布

一、英伟达（NVIDIA）GPU 核心知识体系

在 AIDC 运维中，不要只看显卡型号，要从芯片架构、产品形态、互联拓扑三个维度去理解。

1. 当前及下一代主流微架构（Architecture）

Hopper 架构（主力成长期）： H100 / H200。其中 H200 是目前大模型推理的明星，搭载了高达 141GB 的 HBM3e 显存，带宽达 4.8 TB/s。
Blackwell 架构（最新爆发期）： B100 / B200 / GB200。这一代引入了第二代 Transformer 引擎，全面推行 FP4 精度，是当前 AIDC 扩建和新建的绝对核心。

2. 必须分清的两种硬件形态（Form Factor）

同一款芯片（如 H100/H200），厂商出货时通常有两种完全不同的物理形态，这决定了服务器的内部结构：

SXM 5 / SXM 6（OAM 规范）： 针脚式模块。它们不插在普通的 PCIe 插槽上，而是直接焊接/固定在厂商定制的 HGX 基板（Baseboard）上。通常是 4 卡或 8 卡一组。特点： 功耗极高（单卡 700W+）、带宽极大，必须配合大面积风冷或液冷板。
PCIe（插卡式）： 标准的标准服务器扩展卡（如 H200 NVL）。直接插在服务器主板的 PCIe 5.0 插槽上。特点： 功耗稍低（通常 600W 左右），部署灵活，适合中小规模推理或通用服务器升级。

3. AIDC 运维的灵魂：互联技术（Interconnect）

在 AIDC 中，单卡能力是次要的，多卡协作的带宽才是瓶颈。你需要重点看以下两项：

NVLink & NVSwitch： 解决机箱内部（Intra-node） GPU 之间的通信。比如 8 卡 HGX H200 节点内，通过 NVSwitch 实现了全网状（All-to-All）互联，单卡双向带宽高达 900 GB/s。
InfiniBand（IB）与 RoCE（Spectrum-X）： 解决机柜之间（Inter-node）的通信。通常服务器会配置 ConnectX-7（400Gbps NDR）或最新的 ConnectX-8（800Gbps XDR）网卡，走无损网络拓扑（如 Fat-Tree）。

二、主要服务器厂商及其主力 AI 硬件

目前市场上的 AI 服务器主要分为两大派系：国际大厂（通用与定制化兼顾） 与 国内主力厂商（信创与本土智算中心主力）。看资料时，重点关注他们的 8卡 GPU 服务器 和 整柜液冷解决方案。

1. 国际主流厂商

超微（Supermicro，SYS-821GE-TNHR 等系列）：
看点： “硅谷速度”，英伟达最新的通用基板（如 HGX H200/B200）他们总是最先推出整机。其 4U/8U 机架式服务器在海外和很多托管机房非常普及。
戴尔（Dell PowerEdge XE9680 / XE9880）：
看点： 旗舰级 8 卡 AI 服务器，风冷与液冷设计非常成熟。重点看其模块化设计和内置的 iDRAC 远程管理系统（运维必用）。
HPE（Hewlett Packard Enterprise，Cray Supercomputing）：
看点： 长于大规模超算集群整合，重点看他们和英伟达联合开发的 GB300 / GB200 NVL72 机柜级整体交付方案。

2. 国内主力厂商（AIDC 建设的绝对中坚）

浪潮信息（Inspur，如 NF5688M7 / NF5488M7）：
看点： 国内 AI 服务器市场份额极高。NF5688M7 是典型的 8 卡配置，支持国内多种算力芯片及英伟达架构。去看他们的高密度散热设计（特别是冷板式液冷）资料。
新华三（H3C，UniServer R5500 G6）：
看点： 紫光旗下，国内企业级和运营商市场主力。重点看他们针对大模型训练场景下的 PCIe 拓扑和智能运维管理软件（OM）资料。
超聚变（FusionServer，2488H V7 / 智算整柜）：
看点： 承接了原华为服务器的优良血统，主打高可靠性、高能效比。他们的全液冷整机柜解决方案在业界很有代表性。
中兴、宁畅等： 关注定制化节点的交付能力及高性价比机型。

三、从 AIDC 建设与运维视角，你应该重点看什么？

看厂商的 PDF 胶片和白皮书时，不要只看跑分（TFLOPS），运维和建设更关注物理边界和接口：

1. 供电与功耗管理（Power）

单机功耗： 一台标准的 8 卡 SXM H200 服务器，加上双路 CPU 及满配网络，整机功耗高达 8kW ~ 10kW。
整柜功耗： 如果是 Blackwell 时代的 GB200 NVL72 整柜交付，一个机柜的功耗可能高达 120kW ~ 130kW！
你需要看： 传统的 3kW/5kW 普通机柜根本无法承载。去看资料里关于 三相供电（3-Phase Power）、母线排（Busbar）、以及 PDU（电源分配单元） 的规格要求。

2. 散热与制冷（Cooling）

风冷（Air Cooling）： 10kW 已经是风冷的极限，服务器内部的风扇会像尖叫一样以万转速度运行，对机房风道（冷热隔离）要求极高。
液冷（Liquid Cooling）： 现代 AIDC 的标配。主要去看冷板式液冷（Direct Liquid Cooling, DLC）。
你需要看： 什么是 CDU（冷量分配单元）、二次侧/一次侧管路、快换接头（Quick Disconnect）防漏液技术。

3. 重量与空间（Weight & Space）

一台 8 卡 AI 服务器通常重达 60kg - 80kg，需要 2-3 人或专用升降机上架。
一个 GB200 NVL72 机柜重达 1.36 吨。
你需要看： 机房的楼面承重（Floor Loading）指标（通常需要加强结构或专用底座），以及非标准的机柜尺寸（如 OCP ORv3 标准的 600mm/21英吋宽机柜）。

4. 带外管理（OAM / IPMI）

这是运维的“救命稻草”。
你需要看： 各家厂商的带外管理芯片（如 Dell iDRAC, 浪潮 ISBMC, 超聚变 iBMC）。了解如何在系统崩溃、网络断开时，通过带外网络进行远程开关机、固件更新、查看传感器温度和功耗。

四、

维度	方案 A（如浪潮 8*H200 SXM）	方案 B（如戴尔 8*H200 PCIe）	方案 C（如最新 Blackwell 液冷整柜）
单节点算力/显存	8 * 141GB HBM3e	8 * 141GB HBM3e	72 * Blackwell GPU
机箱内互联	NVSwitch (900GB/s)	PCIe Gen5 + Bridge (较慢)	NVLink 5 (130TB/s 总带宽)
单机最大功耗	~10 kW	~7 kW	~120 kW (整柜)
制冷要求	风冷高要求 / 建议液冷	风冷即可	必须纯液冷
对应数据中心要求	传统机房需改造风道/提高电量	传统机房直接上架	必须新建/重度改造液冷智算机房

💡 结束语：
带着“算力怎么塞进机柜（空间）”、“电怎么供得上（电力）”、“热怎么排得出去（散热）”、“挂了怎么远程修（运维）”这四个问题去看资料，你的进度会比盲目背参数快十倍。

一、风冷 vs 液冷：核心区别

⭐️
液冷耗电少，远低于风扇的功耗，单机柜能支持100 kW ~ 140 kW 以上，是风冷的数倍
初期建设成本高，后期运维复杂度高

1. 散热效率与物理极限

风冷： 依靠高转速风扇带动空气对流，通过散热片将热量带走。空气的导热系数很低，面对单卡功耗超过 700W（如 H100/H200 SXM）、整机功耗达到 10kW 的 AI 服务器，风冷已经逼近物理极限。为了散热，服务器风扇会满负荷轰鸣，消耗大量“无用”的电能。
液冷： 利用液体（通常是去离子水、乙二醇或特殊绝缘液体）的高比热容。液体的导热能力是空气的 25倍 左右，带走相同热量消耗的泵功耗远低于风扇功耗。

2. 常见技术形态

风冷： 主要是机房级对流。通过封闭冷/热通道（Aisle Containment），配合机房的大型精密空调（CRAC）和列间空调（In-Row AC）进行循环制冷。
液冷： 目前 AIDC 最主流的是冷板式液冷（Direct Liquid Cooling, DLC）。
液体不直接接触芯片。
定制的铜制液冷板（Cold Plate）直接贴在 GPU 和 CPU 表面，液体在管路内流动把热量带到机柜外部的 CDU（冷量分配单元）。
注：另一种是浸没式液冷（Immersion Cooling），将整机泡在绝缘液体里，技术更极致但维护成本极高，目前非主流。

3. 核心参数对比矩阵表

对比维度	风冷方案（Air Cooling）	冷板式液冷方案（DLC）
单机柜承载极限	通常上限为 15 kW ~ 20 kW	可轻松支持 100 kW ~ 140 kW 以上
机房 PUE 指标	偏高（通常在 1.3 ~ 1.5 之间）	极低（可实现 PUE < 1.15，非常符合绿色节能政策）
初期建设成本 (CAPEX)	低。技术极其成熟，标准机房通用。	高。需要布置一次侧/二次侧管路、CDU、室外冷却塔，且服务器本身更贵。
后期运维成本 (OPEX)	高。空调电费高昂，风扇易损坏。	低。极大地节省电费（年省电可达 20%-30%）。
运维复杂度	低。直接插拔服务器，无漏液风险。	高。需要监控水质、压力，使用快换接头（QD），需防范漏液。
噪音水平	极大（AI 服务器满载时噪音超过 85-90 分贝）。	极小（服务器内部取消或大副减少高转速风扇）。

二、智算中心（AIDC）如何选择？

作为运维和建设方，选择哪种方案不是盲目追求新技术，而是要根据芯片型号、机房现状、商务预算来进行“卡线选择”。

我们可以通过以下三个决策步骤来决定：

决策 1：看算力芯片的功耗（硬性门槛）

无脑选风冷： 如果你们托管或建设的机房主要跑的是中低端推理卡（如 NVIDIA L4、L40S，或者单卡功耗在 300W-400W 以下的 PCIe 卡），标准风冷+列间空调完全足够，没必要上液冷增加复杂度。
风冷极限/液冷推荐： 如果是 8 卡 H100 / H200 SXM 平台（整机约 10kW）。风冷可以勉强压住，但机柜功率密度必须拉大（比如一个机柜只敢放 1-2 台服务器，旁边空着），此时能上液冷尽量上液冷。
强迫选液冷（强制性）： 如果你们公司开始引入英伟达最新的 Blackwell 架构（如 GB200 NVL72 整柜），由于单柜功耗直接飙到 120kW，风冷在物理上已经完全不可能实现。英伟达官方直接采用纯液冷设计，你没有选择，机房必须具备液冷建设和运维能力。

决策 2：看机房是“新建”还是“改造”

新建智算中心： 坚定走液冷（或风液混合）路线。 政策对新建大规模型智算中心的 PUE 限制非常死（通常要求在 1.25 甚至 1.2 以下）。新建机房从地基承重、地下管路、室外冷却塔开始就为液冷设计，能实现利益最大化。
利旧/老机房改造： 优先考虑风冷或局部微改造。 老旧机房的地板承重不够（液冷整柜极重）、层高不够、且没有预留液体管道。如果一定要上高功耗 GPU，可以考虑引入后门热交换器（Rear Door Heat Exchanger, RDHx）——这是一种“折中”的风液混合方案，把液冷盘管做在机柜门上，用风扇吹过水墙，不需要改造服务器内部。

决策 3：看公司的资金链与算力生命周期（TCO 算账）

如果项目是短期租用、试错性质的集群，或者资金流吃紧，选择风冷可以省下大笔初期雷达建设成本（CAPEX）。
如果项目是国家级智算中心、大型互联网大模型训练基地，预期运行 3-5 年以上，选择液冷。虽然第一年投入大，但通过省下来的巨额电费（OPEX），通常在 1.5 到 2 年内就能把初期高出的成本收回来，后面全是净赚。

三、给运维同学的避坑提示

如果你被分配去运维这两种机房，工作中要注意的侧重点完全不同：

运维风冷机房： 天天盯着“气流组织”。检查盲板（Blanking Panel）有没有漏装（防止冷热风短路）、看滤网有没有堵塞、重点关注机柜顶部的服务器会不会因为“热岛效应”局部过热（Thermal Throttling）导致 GPU 降频。
运维液冷机房： 天天盯着“压力与漏液”。学会看 CDU 的压力表和流量计。液冷最怕漏液（Leakage），虽然现在都用绝缘或低导电率的水，但漏水依然是灾难。你需要定期巡检快换接头（Quick Disconnect）有没有渗水，查看机柜底部的漏液检测绳（Leak Detection Rope）有没有告警。

一、液冷后期运维“复杂度高”，具体指什么？

⭐️
防漏液，否则短路
液冷管路内不能有藻类和水垢
服务器和水管的接头管理
换内存等机箱内部件还要伺候好液冷板和水管

风冷运维就像维护家里的老风扇，坏了拔掉换一个就行；而液冷运维更像是维护一个微型的“城市供水与化学工厂”。它的高复杂度主要体现在以下四个方面：

1. 致命的“漏液”防范与应急（Leakage）

液体是 IT 设备的天然克星。虽然液冷系统使用的是高纯度去离子水、乙二醇混合液或绝缘油，但一旦发生大面积泄漏，依然会导致设备短路损坏。

运维动作： 运维人员必须天天盯着机柜底部的漏液检测绳（一根遇水阻值会发生变化的特殊线缆）。一旦报警，需要立刻排查是哪个接头在渗水。
高压高风险： 液冷管路内部是有压力的（通常在 $\sim 4\text{ bar}$ ）。在对服务器进行带电热插拔时，如果操作不当，液体可能会直接喷溅出来。

2. 水质监控与化学维护（Water Quality）

液冷管路内部绝对不能长藻类、不能有水垢、不能腐蚀铜制的冷板。

运维动作： 定期（如每季度）对冷却液进行抽样检测，测试其 pH 值、电导率、浊度以及杀菌剂浓度。如果指标超标，必须往系统里添加除垢剂、杀菌剂，或者整体换水（排污与补水）。这在传统风冷机房是完全没有的概念。

3. 接头管理与“打冷枪”（Quick Disconnect）

服务器连接到机柜背后水管（Manifold）依靠的是快换接头（QD）。这种接头内部有弹簧阀门，插上导通，拔出断开。

运维动作： 快换接头的内部橡胶圈（O型圈）在长期的 50°C-60°C 水温下会老化。如果频繁插拔服务器，接头可能卡死或闭合不严，俗称“打冷枪”（液体滋出来）。运维需要备有大量的备件，并具备熟练的打压、排气（Bleeding）技能（防止管路进空气产生气阻）。

4. 设备重、空间小，纯体力活

液冷服务器（如 NVIDIA HGX 平台）里面塞满了密密麻麻的硬质或软质水管。

运维动作： 哪怕只是服务器里一个普通的内存（DIMM）或者网卡坏了，风冷服务器直接开盖就能换。而液冷服务器由于上方压着厚厚的液冷板和水管，运维人员必须先断开水路、用专用工具把管路里的残液吹扫干净，然后小心翼翼地拆卸液冷板，更换完内存后，还要重新涂抹导热膏、重新安装液冷板、重新打压测漏。

二、为什么功耗飙到 120kW 后，风冷在物理上完全不可能实现？

⭐️
物理上风不可能实现，小飓风导致冷热风混合，风扇消耗的电能超过cup
空间费用，需要大量风道空间，一个机柜两台机器，浪费钱

这不仅仅是“风扇不够大”的问题，而是受限于空气的物理特性。

1. 空气的“载热能力”太差

要把 120kW 的热量带走，根据热力学公式，我们需要极大的风量（Volumetric Flow Rate）。
如果要用空气压住一个 120kW 的机柜，维持合理的温差（比如进风 25°C，出风 40°C），每小时需要流过上万立方米的空气。

物理冲突 1（风速与噪音）： 要把这么多空气吹进一个标准机柜，服务器里的风扇必须以 两万转以上 的速度狂转。这会产生超过 100 分贝的恐怖噪音，且风扇自身消耗的电能甚至会超过 CPU 本身。
物理冲突 2（风道结露与飓风）： 机房里会形成小型“飓风”，强烈的对流会导致冷热风严重混合。而且为了提供足够的冷风，空调出风口温度必须极低，这会导致机房内部极易结露，直接烧毁电路。

2. 空间与密度的矛盾

120kW 相当于 20 多台家用大 3 匹空调同时开到最大。

如果用风冷，为了让空气能吹透芯片，服务器内部必须留出大量的风道空间，散热片要做得巨大。
这样一来，一台服务器可能要占用 8U 甚至 10U 的空间。一个机柜顶多放 2 台服务器，高昂的数据中心机位费（租金）和线缆成本会直接让项目亏本。

相比之下，液冷管路只有手指粗细，却能带走十倍于空气的热量，这才能让 72 颗 Blackwell GPU 挤在一个机柜里。

三、 TCO 算账：电费和初期建设成本怎么对比？

这就是行业里常说的 TCO（Total Cost of Ownership，总拥有成本）分析。我们用一组真实的行业概算来算一笔账：

假设我们要建设一个拥有 100 个机柜 的中型智算中心：

1. 初期建设成本（CAPEX）—— 液冷更贵

风冷机房： 买常规精密空调、做标准地板和风道。100 柜的基建开销假设是 5000 万元。
液冷机房： 要买 CDU（一台几十万）、铺设昂贵的二次侧不锈钢/铜管路、建设室外大型冷却塔、做防漏液系统，且液冷版的服务器本身（带冷板和快换接头）也比风冷版贵。100 柜的基建开销可能高达 8000 万元。
差价： 液冷比风冷在初期要多花 3000 万元。

2. 后期运营电费（OPEX）—— 液冷极省

AI 服务器是 24 小时满载运转的“吞电巨兽”。

算算电费差距：
风冷机房 PUE 约为 1.4（意味着服务器用 1 度电，空调要用 0.4 度电来散热）。
液冷机房 PUE 约为 1.1（空调/水泵只需要 0.1 度电）。
假设这 100 个机柜的总算力功耗是 $kW5000\text{ kW}$ （5兆瓦）。
风冷年总耗电（含制冷）： $5000 \times 1.4 \times 24 \times 365 = 61,320,000\text{ 度}$
液冷年总耗电（含制冷）： $5000 \times 1.1 \times 24 \times 365 = 48,180,000\text{ 度}$
每年省电： $度13,140,000\text{ 度}$ 。按工业电费 0.7 元/度计算，液冷每年光电费就能省下约 920 万元。

3. 回本周期（ROI）

$年\text{回本年限} = \frac{\text{初期多花的钱 (3000万)}}{\text{每年省下的电费 (920万)}} \approx 3.26 \text{ 年}$

结论： 只要这个智算中心连续运行超过 3.2 年，液冷省下来的电费就已经把初期多砸的钱全部赚回来了。由于大模型算力一般会规划 3-5 年的生命周期，所以从长期来看，液冷在商业上反而是更便宜的。

四、纠正一个小误解：“初期雷达建设成本”是什么？

哈哈，这里你可能不小心看错或者被输入法误导了。在数据中心和服务器行业里，这里指的不是“雷达”，而是基建或者初投。

如果你是在某些行业资料里听到了类似“lei da”的发音，或者拼写相近的词，它大概率是以下两个词之一：

“基达” / 基建成本（Infrastructure Cost）： 指的是机房的土建、管路、承重等基础工程。
Capex（Capital Expenditure）： 行业术语，专指“资本支出” / “初期投入”。在中文口语交流中，有时会被错读或错译。

在数据中心里，确实有雷达（比如机房安防用的激光雷达，或者微波雷达用来检测有没有外人溜进机柜阵列），但那个成本极低，绝对算不上“大笔成本”。这里领导或资料的核心意思就是：选择风冷，能省下大笔“初期机房管路和冷源设备的建设钱”。

一、NVIDIA 数据中心 GPU

这是 AIDC 的核心算力来源，先建立架构演进的时间线，型号命名就有逻辑了。

架构代际（按发布时间）：

Volta（2017）：V100，现在基本退役
Turing（2018）：T4，推理卡
Ampere（2020）：A100 是上一代训练主力
Hopper（2022）：H100 / H200，目前存量最大的训练/推理卡
Blackwell（2024）：B200 / GB200，当前最新主力，也是新建 AIDC 的重点
Rubin（预计 2026 前后）：下一代，名字可以先记住

需要重点掌握的几张卡：

型号	架构	显存	互联带宽	功耗(SXM)	定位
A100	Ampere	40/80GB HBM2e	NVLink 600GB/s	400W	上代训练
H100	Hopper	80GB HBM3	NVLink 900GB/s	700W	训练主力
H200	Hopper	141GB HBM3e	900GB/s	700W	H100 加大显存版
B200	Blackwell	192GB HBM3e	NVLink 1.8TB/s	~1000W	当前旗舰
GB200	Blackwell	Grace CPU + 2×B200	—	整柜级	超级芯片方案

几个关键概念你必须搞清楚，面试或汇报都会问到：

NVLink / NVSwitch：GPU 之间的高速直连总线（远快于 PCIe）。NVSwitch 是把多张 GPU 全互联的交换芯片。这是英伟达相对竞品最深的护城河之一。

HGX vs DGX vs MGX：HGX 是 NVIDIA 提供给服务器厂商的"GPU 基板"（一般 8 卡一块），各厂商基于它做自己的整机；DGX 是 NVIDIA 自己卖的整机品牌；MGX 是模块化参考设计。你接触的多数第三方服务器都是基于 HGX 做的。

GB200 NVL72：这是 Blackwell 时代最重要的产品形态——把 72 张 GPU 通过 NVLink 做成"一个机柜即一台超级计算机"，单柜功率可达 120kW 以上，且强制液冷。新建 AIDC 几乎绕不开它，重点研究。

二、NVIDIA 的"全家桶"生态

光看 GPU 不够，AIDC 是整套系统。这几块也要了解：

Grace CPU：基于 ARM 的服务器 CPU，常与 GPU 组成 Superchip（GH200、GB200）
网络是重中之重：InfiniBand（Quantum 系列，NDR 400Gb/s）和 Spectrum-X 以太网两条路线，决定集群能否高效扩展。ConnectX 是网卡，BlueField 是 DPU（卸载网络/存储/安全任务）
软件栈：CUDA、NCCL（多卡通信库）、以及 AI Enterprise 软件套件

记住一句话：英伟达卖的不是卡，是"计算-网络-软件"整套体系，这也是它毛利高的原因。

三、主要服务器厂商

整机厂商基于 HGX 平台做集成、散热、供电和交付。分国际和国内两条线。

国际厂商：

Supermicro（超微）：GPU 服务器出货量和机型覆盖最广，AIDC 里曝光率极高
Dell：PowerEdge XE 系列
HPE：收购 Cray 后在超算/AI 集群有积累
Lenovo（联想）：ThinkSystem
Cisco：UCS

国内厂商（如果公司在中国，这条线更重要）：

浪潮信息：国内 AI 服务器市场份额长期第一
新华三（H3C）
宁畅（Nettrix）
中科曙光：液冷做得早
华为昇腾 Atlas：注意这是自研 NPU 路线，不用英伟达 GPU，属于"国产替代"另一条技术栈

ODM 厂商（云大厂直接找的代工）：广达（QCT）、纬创、富士康等。如果你们服务超大规模客户，会接触到这层。

看厂商资料时，重点对比这几个维度：单机支持几张 GPU、支持风冷还是液冷、整机功率、网络配置（几张 ConnectX/几口 InfiniBand）、以及交付和售后能力。

四、AIDC 基础设施（运维方向你尤其要看）

这是"建设和运维"的真正落点，也是 AI 数据中心区别于传统 IDC 的地方。核心矛盾就一个字：热。

功率密度：传统机柜单柜 5–10kW，AI 训练机柜动辄 30–60kW，GB200 NVL72 整柜超过 120kW。这直接颠覆了机房的供电和散热设计。

散热路线（务必搞懂三种）：

风冷：传统方式，到 30kW 左右就吃力了
冷板式液冷：冷却液流过 GPU/CPU 上的冷板，是目前主流过渡方案，GB200 默认采用
浸没式液冷：整机泡在绝缘液里，密度最高但改造成本大

供电链路：市电 → 变压器 → UPS → 配电 → 机柜 PDU，AI 场景下还要关注高压直流、备电时长、以及瞬时功率波动（GPU 负载抖动很大）。

关键指标：PUE（能效，越接近 1 越好）、机柜功率密度、制冷方式、可用性等级（Tier 等级）。

网络拓扑：AI 集群普遍用 Fat-Tree / Spine-Leaf 这类无阻塞架构，还要理解"东西向流量"为什么这么大（多卡训练时 GPU 间海量通信）。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

Python网页自动化实战：DrissionPage表单填报与批量数据处理工程化指南

AtomGit开源社区

Java程序员必看的RAG入门教程

在让LLM回答问题之前，先从你的私有知识库中找到相关的信息，然后把问题和信息一起交给LLM来回答。RAG = 检索（Retrieval） + 增强（Augmented） + 生成（Generation）从学术角度看，RAG通过将生成过程与可验证的最新证据紧密耦合，直接解决了大模型的幻觉问题。RAG不仅能让LLM回答训练数据中不存在的新问题，还能为生成的答案提供来源引用，大幅提升了可信度和可审计性。

AtomGit开源社区

自动化测试的概念

摘要：自动化测试虽能提升效率，但无法完全替代人工测试，需持续维护脚本且主要用于回归测试。实际应用中常出现与理想金字塔模型相反的"冰淇淋蛋筒"模式，初始投入较高但长期效益显著。Web自动化测试需通过WebDriver驱动浏览器，版本匹配是关键，可使用Webdriver-manager工具解决驱动更新问题。Selenium是常用工具，安装时需指定版本（如4.0.0），并配合对应浏览

AtomGit开源社区

所有评论(0)

查看更多评论

The Straggling Crow

@qq_41834780

已为社区贡献6条内容

智算中心（AIDC）的建设和运维

The Straggling Crow

一、 英伟达（NVIDIA）GPU 核心知识体系

1. 当前及下一代主流微架构（Architecture）

2. 必须分清的两种硬件形态（Form Factor）

3. AIDC 运维的灵魂：互联技术（Interconnect）

二、 主要服务器厂商及其主力 AI 硬件

1. 国际主流厂商

2. 国内主力厂商（AIDC 建设的绝对中坚）

三、 从 AIDC 建设与运维视角，你应该重点看什么？

1. 供电与功耗管理（Power）

2. 散热与制冷（Cooling）

3. 重量与空间（Weight & Space）

4. 带外管理（OAM / IPMI）

四、

一、 风冷 vs 液冷：核心区别

1. 散热效率与物理极限

2. 常见技术形态

3. 核心参数对比矩阵表

二、 智算中心（AIDC）如何选择？

决策 1：看算力芯片的功耗（硬性门槛）

决策 2：看机房是“新建”还是“改造”

决策 3：看公司的资金链与算力生命周期（TCO 算账）

三、 给运维同学的避坑提示

一、 液冷后期运维“复杂度高”，具体指什么？

1. 致命的“漏液”防范与应急（Leakage）

2. 水质监控与化学维护（Water Quality）

3. 接头管理与“打冷枪”（Quick Disconnect）

4. 设备重、空间小，纯体力活

二、 为什么功耗飙到 120kW 后，风冷在物理上完全不可能实现？

1. 空气的“载热能力”太差

2. 空间与密度的矛盾

三、 TCO 算账：电费和初期建设成本怎么对比？

1. 初期建设成本（CAPEX）—— 液冷更贵

2. 后期运营电费（OPEX）—— 液冷极省

3. 回本周期（ROI）

四、 纠正一个小误解：“初期雷达建设成本”是什么？

一、NVIDIA 数据中心 GPU

二、NVIDIA 的"全家桶"生态

三、主要服务器厂商

四、AIDC 基础设施（运维方向你尤其要看）

所有评论(0)

温馨提示：您尚未绑定手机号

The Straggling Crow

一、英伟达（NVIDIA）GPU 核心知识体系

二、主要服务器厂商及其主力 AI 硬件

三、从 AIDC 建设与运维视角，你应该重点看什么？

一、风冷 vs 液冷：核心区别

二、智算中心（AIDC）如何选择？

三、给运维同学的避坑提示

一、液冷后期运维“复杂度高”，具体指什么？

二、为什么功耗飙到 120kW 后，风冷在物理上完全不可能实现？

四、纠正一个小误解：“初期雷达建设成本”是什么？