两相液冷崛起的背后:是技术迭代,更是算力刚需
摘要:AI算力驱动单机柜功率突破120kW,热管理目标已从“防止烧毁”升级为“保障算力持续稳定释放”。单相液冷逼近能力边界,两相液冷利用相变潜热控温,实现芯片级±1℃精准调节,流量需求仅为单相的1/5~1/9。真正的解决方案需跨越技术、架构、管理三层断层:从显热到潜热、从独立设备到系统协同、从设备联网到软件定义运维。双轨并行支持新建与存量改造,释放30%-50%潜在算力。液冷竞争下半场,比的是谁更“稳”。

一、行业正在经历一场静默的升级:算力密度飙升,热管理进入深水区
1.AI推动机柜功率突破120kW,传统冷却方式逼近极限
近年来,随着大模型训练和推理任务激增,GPU集群部署密度持续攀升。主流数据中心单机柜功率已从过去的5–10kW跃升至30–50kW,部分AI智算中心甚至规划了100kW以上的超高密度部署。当单机柜发热相当于一台家用空调全力制热时,风冷早已无力应对,单相液冷也开始暴露短板。
2.热管理的目标变了:从“不让设备烧毁”变为“保障算力稳定释放”
过去,冷却系统的使命是防止服务器过热宕机;如今,客户更关心的是:AI训练任务能否连续跑满72小时不降频?推理延迟是否因温度波动而忽高忽低? 这意味着,单纯的“降温”已不足以支撑业务连续性,真正关键的能力,是把芯片温度精准控制在最佳运行区间内。
3.行业趋势倒逼技术升级:液冷不再是“可选项”,而是“必选项”
据DCD、Network World等机构预测,2026年全球超半数新建智算中心将标配液冷系统。与此同时,“东数西算”工程对PUE提出严苛要求,多地规定新建数据中心PUE须低于1.25。在政策与性能双重压力下,热管理不再只是后勤保障,而成为决定算力兑现效率的核心基础设施。

二、行业的现实困境:不是不想改,而是改不起、不敢改、改不好
1.单相液冷并非万能,高密度场景下逐渐接近能力边界
单相液冷通过循环液体带走热量,技术成熟、部署相对简单。但在面对局部热流密度超过500W/cm²的AI芯片时,其换热效率受限于显热传递机制,往往需要大幅提升流量和泵功耗才能维持降温效果。这不仅推高冷却系统能耗,还可能导致冷板进出口温差过大,引发芯片表面温度梯度失衡。
2.存量机房改造难:停机损失大、兼容性差、投资回报不确定
许多企业拥有大量尚未达到生命周期终点的传统机房,但由于散热能力不足,无法承载新一代高功率服务器。若全面重建,成本高昂;若局部改造,则面临设备兼容、管线布置、运维接管等一系列难题。客户真正焦虑的,不是要不要升级,而是在不影响现网业务的前提下,找到一条低风险、可验证、见效快的技术路径。
3.节能≠省钱,粗放式节能难以持续产生价值
不少节能项目初期节电显著,但一年后便回归原点。原因在于:缺乏数据闭环、无人跟踪优化、故障响应滞后。照明系统半夜亮灯没人关,空调设定温度随意调整,冷却泵常年满频运行……这些问题背后,其实是管理方式的落后——硬件可以智能,但管理模式仍是人工经验驱动。

三、真正的解决方案,必须跨越三层能力断层
1.技术断层:从“显热散热”到“相变控温”的物理跃迁
有一种冷却方式,能在极小温差下高效转移巨量热量——那就是利用液体蒸发吸热的相变潜热。两相液冷正是基于这一原理:冷却液在接触热源瞬间汽化,吸收大量热量,随后在冷凝端释放热量并回流。由于相变过程温度恒定,天然具备±1℃以内的精准控温能力,远优于单相液冷的±5℃波动。
更为关键的是,在同等热负荷下,两相系统所需流量仅为单相方案的1/5~1/9,大幅降低泵组能耗与管路压损,系统整体能效显著提升。这种源于航天器红外探测器、大功率雷达等极端工况的技术,如今正被引入地面数据中心,为高密度算力提供稳定温区保障。
2.架构断层:从“独立设备”到“系统级协同”的能力整合
客户采购的从来不是一个冷板或一台CDU,而是一套可持续交付稳定算力的服务能力。这就要求解决方案必须打通芯片级、机柜级与站级三层架构:
芯片级:采用泵驱两相冷板,直接贴合CPU/GPU,实现定点高效散热;
机柜级:部署背板式两相换热系统,回收服务器排出的热空气,减少机房热负荷;
站级:构建集成冷站与水力模块,实现冷源集中供给、智能调控与自然冷却切换。
只有实现这三层贯通,才能确保从硬件到系统、从前端到后台的整体协调运行,让热管理真正匹配高密度算力的长期运行需求。
3.管理断层:从“设备联网”到“软件定义运维”的范式转变
再先进的硬件,若缺乏智能大脑,也无法发挥最大价值。真正的竞争力,体现在能否通过物联网SaaS平台,实现温度、流量、能耗的实时监测与动态优化。
例如:
当某机柜负载突增,系统自动调节泵速与冷媒分配;
历史数据分析预测潜在热岛风险,提前告警;
结合气象数据,在室外温度适宜时切换自然冷却模式,进一步降低PUE。
这不是简单的远程监控,而是构建了一个“感知—分析—决策—执行”的闭环,让热管理从被动响应走向主动调控。

四、未来属于那些能把技术、场景与运营融为一体的企业
1.新建市场看上限,改造市场看兑现:双轨并行才是现实选择
对于新建智算中心,两相液冷可为其预留充足的热管理余量,支持未来3–5年内的密度扩容,避免二次改造;而对于存量机房,模块化设计的后液冷面板支持在线部署,可在不停机状态下完成升级,释放原有30%–50%未被利用的算力潜力。
2.节能的本质不是“省电”,而是“建立持续优化能力”
一家企业的节能成效,不应只看某个月的电费账单,而要看是否建立了可测量、可调控、可迭代的管理体系。通过物联网平台将能耗、故障、运维效率纳入统一视图,客户终于能把“看不见的成本”变成“可管理的资产”。
3.最终赢得市场的,是能定义问题的人,而非仅仅提供产品的人
当大多数厂商还在比拼“谁更冷”时,已有先行者意识到:液冷竞争的下半场,比的是谁更能“稳住温度、控住能耗、管住运维”。他们不再局限于卖设备,而是围绕“精准控温+智能运维+系统交付”构建完整能力链,帮助客户把空间、电力、机柜资源真正兑现为可用算力。
真正有远见的科技企业,不会等待行业给出答案,而是在趋势成型前就已布局方法论。当高密度算力成为常态,热管理的价值将不再仅仅是“降温”,而是成为支撑AI持续演进的底层基石。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)