摘要:AI算力驱动单机柜功率突破120kW,热管理目标已从防止烧毁升级为保障算力持续稳定释放。单相液冷逼近能力边界,两相液冷利用相变潜热控温,实现芯片级±1精准调节,流量需求仅为单相的1/51/9。真正的解决方案需跨越技术、架构、管理三层断层:从显热到潜热、从独立设备到系统协同、从设备联网到软件定义运维。双轨并行支持新建与存量改造,释放30%-50%潜在算力。液冷竞争下半场,比的是谁更

图片

一、行业正在经历一场静默的升级:算力密度飙升,热管理进入深水区

1AI推动机柜功率突破120kW,传统冷却方式逼近极限

近年来,随着大模型训练和推理任务激增,GPU集群部署密度持续攀升。主流数据中心单机柜功率已从过去的5–10kW跃升至30–50kW,部分AI智算中心甚至规划了100kW以上的超高密度部署。当单机柜发热相当于一台家用空调全力制热时,风冷早已无力应对,单相液冷也开始暴露短板。

2热管理的目标变了:从不让设备烧毁变为保障算力稳定释放

过去,冷却系统的使命是防止服务器过热宕机;如今,客户更关心的是:AI训练任务能否连续跑满72小时不降频?推理延迟是否因温度波动而忽高忽低? 这意味着,单纯的降温已不足以支撑业务连续性,真正关键的能力,是把芯片温度精准控制在最佳运行区间内。

3行业趋势倒逼技术升级:液冷不再是可选项,而是必选项

DCDNetwork World等机构预测,2026年全球超半数新建智算中心将标配液冷系统。与此同时,东数西算工程对PUE提出严苛要求,多地规定新建数据中心PUE须低于1.25。在政策与性能双重压力下,热管理不再只是后勤保障,而成为决定算力兑现效率的核心基础设施。

图片

二、行业的现实困境:不是不想改,而是改不起、不敢改、改不好

1单相液冷并非万能,高密度场景下逐渐接近能力边界

单相液冷通过循环液体带走热量,技术成熟、部署相对简单。但在面对局部热流密度超过500W/cm²AI芯片时,其换热效率受限于显热传递机制,往往需要大幅提升流量和泵功耗才能维持降温效果。这不仅推高冷却系统能耗,还可能导致冷板进出口温差过大,引发芯片表面温度梯度失衡。

2存量机房改造难:停机损失大、兼容性差、投资回报不确定

许多企业拥有大量尚未达到生命周期终点的传统机房,但由于散热能力不足,无法承载新一代高功率服务器。若全面重建,成本高昂;若局部改造,则面临设备兼容、管线布置、运维接管等一系列难题。客户真正焦虑的,不是要不要升级,而是在不影响现网业务的前提下,找到一条低风险、可验证、见效快的技术路径。

3节能省钱,粗放式节能难以持续产生价值

不少节能项目初期节电显著,但一年后便回归原点。原因在于:缺乏数据闭环、无人跟踪优化、故障响应滞后。照明系统半夜亮灯没人关,空调设定温度随意调整,冷却泵常年满频运行……这些问题背后,其实是管理方式的落后——硬件可以智能,但管理模式仍是人工经验驱动。

图片

三、真正的解决方案,必须跨越三层能力断层

1技术断层:从显热散热相变控温的物理跃迁

有一种冷却方式,能在极小温差下高效转移巨量热量——那就是利用液体蒸发吸热的相变潜热。两相液冷正是基于这一原理:冷却液在接触热源瞬间汽化,吸收大量热量,随后在冷凝端释放热量并回流。由于相变过程温度恒定,天然具备±1℃以内的精准控温能力,远优于单相液冷的±5℃波动。

更为关键的是,在同等热负荷下,两相系统所需流量仅为单相方案的1/51/9,大幅降低泵组能耗与管路压损,系统整体能效显著提升。这种源于航天器红外探测器、大功率雷达等极端工况的技术,如今正被引入地面数据中心,为高密度算力提供稳定温区保障。

2架构断层:从独立设备系统级协同的能力整合

客户采购的从来不是一个冷板或一台CDU,而是一套可持续交付稳定算力的服务能力。这就要求解决方案必须打通芯片级、机柜级与站级三层架构:

芯片级:采用泵驱两相冷板,直接贴合CPU/GPU,实现定点高效散热;

机柜级:部署背板式两相换热系统,回收服务器排出的热空气,减少机房热负荷;

站级:构建集成冷站与水力模块,实现冷源集中供给、智能调控与自然冷却切换。

只有实现这三层贯通,才能确保从硬件到系统、从前端到后台的整体协调运行,让热管理真正匹配高密度算力的长期运行需求。

3管理断层:从设备联网软件定义运维的范式转变

再先进的硬件,若缺乏智能大脑,也无法发挥最大价值。真正的竞争力,体现在能否通过物联网SaaS平台,实现温度、流量、能耗的实时监测与动态优化。

例如:

当某机柜负载突增,系统自动调节泵速与冷媒分配;

历史数据分析预测潜在热岛风险,提前告警;

结合气象数据,在室外温度适宜时切换自然冷却模式,进一步降低PUE

这不是简单的远程监控,而是构建了一个感知分析决策执行的闭环,让热管理从被动响应走向主动调控。

图片

四、未来属于那些能把技术、场景与运营融为一体的企业

1新建市场看上限,改造市场看兑现:双轨并行才是现实选择

对于新建智算中心,两相液冷可为其预留充足的热管理余量,支持未来3–5年内的密度扩容,避免二次改造;而对于存量机房,模块化设计的后液冷面板支持在线部署,可在不停机状态下完成升级,释放原有30%–50%未被利用的算力潜力。

2节能的本质不是省电,而是建立持续优化能力

一家企业的节能成效,不应只看某个月的电费账单,而要看是否建立了可测量、可调控、可迭代的管理体系。通过物联网平台将能耗、故障、运维效率纳入统一视图,客户终于能把看不见的成本变成可管理的资产

3最终赢得市场的,是能定义问题的人,而非仅仅提供产品的人

当大多数厂商还在比拼谁更冷时,已有先行者意识到:液冷竞争的下半场,比的是谁更能稳住温度、控住能耗、管住运维。他们不再局限于卖设备,而是围绕精准控温+智能运维+系统交付构建完整能力链,帮助客户把空间、电力、机柜资源真正兑现为可用算力。

真正有远见的科技企业,不会等待行业给出答案,而是在趋势成型前就已布局方法论。当高密度算力成为常态,热管理的价值将不再仅仅是降温,而是成为支撑AI持续演进的底层基石。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐