摘要:两相液冷利用工质相变潜热实现高效换热,在沸腾过程中温度近乎恒定,控温精度达±1.5℃。同等热负荷下,所需流量仅为单相液冷的1/5~1/9,泵组能耗大幅降低。芯片热降频事件减少90%以上,AI训练周期缩短15%~20%。系统CLF可低至0.036,年均PUE降至1.12以下,局部pPUE达1.05。模块化背板支持存量机房在线部署,无需停机改造。结合物联网平台与AI寻优控制,实现温度、流量、相态的实时监测与动态调节,将热管理从被动散热升级为主动控温。

图片

一、行业正在经历一场静默的升级:算力密度攀升,热管理逻辑正在重构

1 AI推动机柜功率突破临界点,传统冷却方式逼近能力边界

近年来,随着大模型训练和推理需求激增,AI服务器单机柜功率已普遍突破30kW,部分头部智算中心甚至达到80~120kW。这种高密度部署带来了前所未有的热流集中问题——芯片局部热峰值可达600W以上,远超风冷与单相液冷的稳定承载极限。

行业数据显示,2024年国内新建智算中心中,超过60%已标配液冷系统。但这并不意味着问题终结,而是新挑战的开始:许多项目虽实现了有液冷,却仍频繁遭遇热降频、性能波动、PUE虚高等问题。根本原因在于,当前主流的单相液冷方案,本质仍是被动散热,难以应对负载剧烈波动下的温度稳定性需求。

2 热管理评价标准正在升级:客户不再只问能不能降温,而是能不能稳住算力

对于数据中心运营方而言,真正的KPI不是瞬时温度,而是算力输出的连续性与可预期性。一台GPU因高温反复降频,即便平均温度达标,也会严重拖累训练效率。这就像一辆赛车,发动机冷却良好却频繁熄火,显然无法赢得比赛。

因此,行业关注点正悄然转移:从有没有冷却走向控温是否精准,从能否安装转向能否长期稳定满载运行。这也标志着,热管理的角色正在从配套辅助,升级为影响算力兑现的核心基础设施。

3存量机房改造需求升温,暴露了传统方案的改造困境

除了新建项目,大量已建成的数据中心正面临升级压力。这些机房普遍存在电力充足、空间有余,但热管理能力不足导致设备装不满、跑不稳的问题。然而,传统液冷改造往往需要停机施工、大规模改动管路,甚至更换服务器结构,实施风险高、周期长、成本不可控。

这就引出了一个关键命题:是否存在一种既能适配高密度趋势,又能兼顾新建与改造双场景的热管理路径?

图片

二、破解难题的关键,在于能否跨越从降温控温的技术鸿沟

1单相液冷的局限,不是技术落后,而是物理机制决定了其天花板

单相液冷依赖液体显热吸收热量,换热效率受限于比热容。要带走更多热量,就必须大幅增加流量和泵耗,导致系统能耗上升、噪音增大、可靠性下降。更重要的是,它对温度波动的抑制能力有限,难以实现±1℃级别的精准控温。

这不是简单的加强冷却就能解决的问题,而是换热机制本身的代际差异。正如空调制冷可以让人感到凉爽,但要维持手术室恒温恒湿环境,则必须依靠更复杂的精密空调系统。

2两相液冷的本质优势,在于利用相变潜热实现高效且稳定的热传递

两相液冷通过液体在冷板内汽化吸热、外部冷凝回流的方式工作,其核心是利用工质的气化潜热。以水为例,其汽化热是比热容的500倍以上——这意味着极少量介质即可带走巨量热量。

更重要的是,相变过程发生在恒定温度下,使得冷板表面温度几乎不变,天然具备±1℃以内的控温能力。这种特性不仅能有效消除局部热点,还能在负载突变时快速响应,避免芯片频繁启停或降频。

3航天级技术下移,为地面高密度场景提供了成熟解决方案

事实上,两相流控温技术早在上世纪90年代就已广泛应用于航天器红外探测器、雷达系统等对温控极为敏感的设备中。这些系统要求在极端环境下实现高可靠、低功耗、长寿命运行,与今日数据中心的需求高度契合。

如今,该技术正通过模块化设计、标准化接口和智能调控系统,逐步落地于民用算力基础设施,成为支撑下一代高密度机柜的确定性路径。

图片

三、真正的竞争力不在单一产品,而在系统级能力的构建

1 客户采购的从来不是一块冷板,而是一套可交付、可运营、可持续优化的能力

即便拥有先进的冷板技术,若缺乏与之匹配的CDU(冷却液分配单元)、水力模块、集成冷站和监控系统,依然无法实现整体效能最大化。尤其是在改造项目中,能否做到在线部署、即插即用、不影响业务连续性,直接决定了方案的可行性。

因此,领先方案必须打通芯片级、机柜级、站级三层架构,形成从前端散热到后端自然冷却的全链条协同。

2物联网SaaS平台是实现可管、可控、可运营的关键底座

仅有硬件还不够。真正的价值在于,能否通过传感器实时采集温度、压力、流量数据,结合AI算法进行动态调节,并将能耗、故障、运维记录统一纳入管理平台。这样一来,运维人员不再依赖人工巡检,而是能够提前预警异常、自动优化策略、量化节能成果。

这正是从设备管理迈向运行质量管理的跃迁。

3预制化与模块化交付,让复杂系统变得像搭积木一样简单

面对工期紧张、场地受限、施工条件复杂的项目,传统的现场组装模式已难以为继。取而代之的是在工厂完成整体集成、测试合格后再运抵现场的预制化机电集成系统

这类系统不仅缩短了交付周期50%以上,还大幅降低了现场施工误差和后期维护难度,真正实现了像造汽车一样造机房

图片

四、这场变革带来的,不仅是技术升级,更是运营范式的重塑

1控温能力转化为算力兑现率:让每一块GPU都能稳定发挥性能

实测数据显示,在采用泵驱两相液冷系统的项目中,芯片热降频事件减少90%以上,AI训练任务完成时间缩短15%~20%。这意味着同样的硬件投入,可以获得更高的实际产出。

2节能不再只是省电费,而是通过精细化管理重构成本结构

结合智能控制算法,系统可根据室外气象条件自动切换自然冷却模式,在适宜季节完全关闭压缩机。多个案例显示,年均PUE可降至1.12以下,局部pPUE甚至达1.05,显著降低冷却能耗占比。

更重要的是,节能效果可测量、可追溯、可验证,为企业ESG报告和双碳目标达成提供有力支撑。

3盘活存量资源,释放被压抑的算力潜力

在多个存量机房改造案例中,仅通过热管理升级,便实现了30%~50%的算力扩容。无需新增机房、无需扩容电力,原本不敢满载的机柜终于可以稳定运行,极大提升了资产利用率。

未来三年,决定数据中心竞争力的,不再是空间或电力储备,而是热管理能否支撑高密度、长周期、稳输出的算力释放。那些率先将精准控温纳入核心能力体系的企业,才能真正握住通往高密度算力时代的钥匙。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。