单相液冷还没淘汰，为什么两相液冷技术正在成为高端智算中心的主流选择？

塔能物联运维

335人浏览 · 2026-04-25 20:57:53

塔能物联运维 · 2026-04-25 20:57:53 发布

摘要：AI算力爆发推动智算中心单机柜功率突破120kW，传统风冷与单相液冷在超高密度场景下逼近能力边界。两相液冷利用相变潜热，实现芯片级±1.5℃精准控温，可减少90%以上的热降频，保障AI任务稳定运行。配合物联网平台实现主动温控，综合节能超20%，投资回收期约3年。从“降温”到“稳算力”，两相技术正成为高端智算中心的主流选择。

一、行业变了：AI算力爆发，机柜密度飙升，传统冷却方式正在逼近极限

1．AI训练集群推动机柜功率突破120kW，风冷与单相液冷逐渐力不从心

近年来，随着大模型训练任务常态化，GPU集群部署密度急剧上升。据国际数据中心与网络领域权威机构DCD（Datecenter Dynamics）与Network World数据显示，2025年起，主流智算中心单机柜功率普遍迈过30kW门槛，部分AI训练机房已达到80~120kW级别。在此背景下，传统风冷系统因换热效率低、气流组织复杂，早已无法满足散热需求。

更关键的是，单相液冷虽已普及，但在超高热流密度场景下正逐步接近能力边界。其依靠液体显热带走热量的机制，需大幅提升流量与泵功耗，不仅增加能耗，还难以应对芯片瞬时功耗波动带来的局部热点问题。

2．客户真正焦虑的，从来不是“有没有冷却”，而是“能不能稳定满载运行”

一位数据中心运维负责人曾坦言：“我们不怕设备发热，怕的是温度一波动，GPU就开始降频，训练任务中断重跑。”这揭示了一个被长期忽视的事实：现代算力系统的瓶颈，已从“能不能开机”转变为‘能不能持续稳定输出’。

尤其在AI推理场景中，毫秒级延迟波动都可能导致服务 SLA 不达标。此时，单纯的“降温”已不足以支撑业务连续性——客户真正需要的是温度的精准控制与长期稳定性。

政策与双碳目标进一步压缩容错空间，PUE与TCO成为硬指标

“东数西算”工程持续推进，各地对新建数据中心PUE要求已收紧至1.25以下，部分地区甚至要求低于1.2。与此同时，企业对总拥有成本（TCO）的关注前所未有地提升。这意味着，冷却系统不仅要“有效”，更要“高效、可量化、可持续优化”。

二、问题本质：液冷的下半场，比的不是谁更“冷”，而是谁更“稳”

1．散热≠ 控温，这是两个完全不同层级的能力

目前市场上不少液冷方案仍停留在“把热量带走”的初级阶段。然而，真正决定算力释放质量的，是芯片工作温度的波动幅度。实验表明，同一GPU在55±10℃与55±1℃两种温区内运行，性能稳定性相差高达37%。

而两相液冷的核心优势，正在于其天然具备精准控温能力。通过相变潜热吸热机制，在液体沸腾过程中温度几乎恒定，可实现芯片级±1.5℃以内的动态控温，可基本消除热震荡导致的性能抖动。

2．单相液冷并非落后，而是适应性受限于物理规律

必须承认，单相液冷在中低密度场景中依然高效可靠。但其局限在于：显热换热能力有限，流量需随热负荷线性增长，系统能耗随之攀升。而在高密度场景中，为维持散热效果，往往需要配备更大功率水泵与换热器，反而推高CLF（Cooling Load Factor），削弱节能效益。

相比之下，两相液冷利用相变潜热，同等热负荷下所需流量仅为单相系统的1/5~1/9，大幅降低泵组能耗，系统整体PUE更具优势。

3．热管理正在从“配套系统”升级为“算力基础设施”

过去，冷却系统被视为辅助设施；如今，在高密度算力时代，热管理直接决定了机柜能否满载、扩容是否可行、电力资源能否充分利用。某存量机房改造案例显示，原有机房因空调制冷能力不足，实际装载率仅达设计容量的60%。通过引入新型热管理方案后，算力密度提升40%，等效释放出30%闲置空间与电力资源。

三、解决方案：不止是硬件革新，更是“软件定义温控”的系统重构

1．航天级两相技术落地民用，带来本质级换热跃迁

源于航天器红外探测器与雷达系统的热控需求，两相流技术早在上世纪九十年代便已在极端环境下验证其高可靠性与高效性。其核心在于：利用液体气化过程中的相变潜热，实现超高效热量搬运。

以水为例，其汽化热达2260 kJ/kg，远高于显热（4.2 kJ/kg·℃）。这意味着，少量工质即可带走巨量热量，且在整个相变过程中温度保持恒定——这正是实现精准控温的物理基础。

2．从芯片级到站级，构建三层协同的热管理架构

领先的热管理方案不再局限于单一产品，而是构建起覆盖“芯片—机柜—冷站”的全栈能力：

芯片级：泵驱两相冷板，直接贴合CPU/GPU，实现定点高效散热；

机柜级：两相背板散热系统，回收服务器后排热风，支持自然冷却切换；

站级：集成冷站+液冷CDU，实现冷源集中管理与智能调配。

这种三层贯通的设计，确保了从热源到终态的全链路可控性，也为后续智能化运维打下基础。

3．物联网平台让“被动散热”进化为“主动温控服务”

真正的变革，发生在软件层。通过将传感器、控制器与AI算法嵌入冷却系统，实现了：

实时监测每块冷板的温度、流量、压力状态；

动态调节泵速与沸点，匹配负载变化；

基于历史数据预测热趋势，提前干预；

自动生成能效报告，支撑节能审计与碳排放核算。

这不是一套“安装即完成”的设备，而是一个持续优化的温控服务体系。正如某客户所说：“以前我们只能‘看到’温度，现在我们可以‘管理’温度。”

四、长期价值：控温能力，正在重塑算力经济的基本面

1．稳算力：减少热降频90%以上，保障AI任务连续性

实测数据显示，在采用两相液冷方案的数据中心中，GPU因高温触发的降频事件减少超过90%，模型训练周期缩短18%，推理服务延迟稳定性提升40%。这对依赖SLA履约的云服务商而言，意味着更高的客户满意度与商业信誉。

2．低TCO：综合节能率超20%，投资三年内收回

得益于更低的泵耗、更少的风扇依赖、更高的自然冷却利用率，整体冷却系统能耗下降35%以上。叠加机柜密度提升带来的空间与电力复用，TCO优化显著。多个改造项目验证，综合节能收益可在2.8~3.5年内覆盖初始投入。

3．可运营：让热管理成为可持续优化的资产

当冷却系统接入物联网平台，它就不再是一个“黑箱”设备，而成为一个可测量、可分析、可迭代的运营对象。运维团队可通过平台远程诊断异常、制定节能策略、评估扩容潜力，真正实现从“故障响应”到“预测性运营”的转变。

未来的竞争，不属于那些只会堆参数的企业，而属于那些能定义问题、重构逻辑、交付结果的系统级解决方案提供者。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

中国开源软件的崛起与困境：贡献者生态的建立之难

AtomGit开源社区

技术创业的冷思考：从风口追赶到价值创造的转变

AtomGit开源社区

张量分解核心模型：从Tucker分解、CPD到耦合CPD与块项分解

本文系统介绍了四种张量分解核心模型：Tucker分解、CP分解、耦合CP分解和块项分解(BTD)。Tucker分解通过核张量与因子矩阵乘积表示高维数据；CP分解作为其特例，采用秩-1分量之和的紧凑形式；耦合CP分解通过共享因子矩阵实现多源数据融合；BTD则通过低多线性秩项组合处理复杂结构。文章详细阐述了各模型的数学表达、参数特性和适用场景，并对比了它们的优缺点：Tucker灵活性高但参数多，CP具