摘要:AI算力驱动单机柜功率突破60kW,单相液冷在热流密度超过50W/cm²时暴露控温精度差、泵耗高等短板。行业痛点已从能不能降温转向能不能稳温。两相液冷利用相变潜热控温,实现芯片级±1精准调节,同等热负荷下流量需求仅为单相的1/51/9。航天级技术下放,支持在线部署与存量机房改造,释放30%以上潜在算力。实测显示热降频减少90%pPUE低至1.05。行业买的不是冷板,而是一套可稳定释放算力的系统能力。

图片

一、行业变革:AI算力爆发,热管理迎来深水区考验

1AI训练集群功率密度飙升,传统冷却方式逼近极限

近年来,随着大模型训练和推理需求激增,AI服务器单机柜功率普遍突破30kW,部分场景甚至达到60kW以上。在此背景下,风冷早已无力应对,单相液冷虽有所缓解,但在高热流密度、动态负载波动下,其温度控制能力逐渐暴露短板——局部热点频发、热降频频繁、系统余量不足,已成为制约算力稳定释放的关键瓶颈。

2行业焦点正从能不能降温转向能不能稳温

过去,数据中心关注的是设备是否过热;如今,客户更关心的是算力能否持续满载运行。这意味着热管理的评价标准已发生根本转变:不再只是看PUE数值,而是看温度波动幅度、热响应速度、系统冗余能力。特别是在AI训练这类长时间高负载场景中,哪怕0.5℃的温度漂移,也可能引发性能波动或提前老化。

3单相液冷并非失效,而是正接近其物理边界

需要客观承认,单相液冷在中低密度场景仍具性价比优势。但问题在于,随着芯片功耗持续攀升、机柜布局日益紧凑,单相系统的换热效率受限于显热传递机制,泵耗大、流量高、控温精度差等问题愈发突出。当热流密度超过50W/cm²时,单相方案往往需要大幅增加冷却流量,反而推高能耗与运维复杂度。

图片

二、行业痛点:高密度机柜面临的不只是,更是不稳定

1热降频频繁,算力输出断断续续

许多数据中心在实际运行中发现,即便部署了液冷,AI训练任务仍会出现周期性性能下滑。究其原因,并非设备太热,而是温度波动过大触发了芯片的自我保护机制。这种隐性损耗难以通过常规监控发现,却直接影响训练周期与推理响应速度。

2改造风险高,存量机房升级举步维艰

对于大量已建成的数据中心而言,问题不是没有电力或空间,而是热管理能力不足导致资源无法充分利用。然而,传统液冷改造常需停机施工、更换服务器结构,风险高、周期长。客户迫切需要一种既能在线部署、又不影响业务连续性的热管理路径。

3运维效率低,能耗与故障难以协同管理

即便冷却系统正常运行,运维团队仍面临看不见、管不细、调不准的困境。温度、流量、能耗等数据分散在多个子系统中,缺乏统一平台进行状态感知与策略联动,导致故障响应滞后、节能潜力无法释放。

图片

三、技术跃迁:两相液冷为何是高密度时代的确定性选择

1显热潜热:换热机制的本质升级

两相液冷的核心在于利用液体蒸发吸热的相变潜热,而非单纯依靠温升带走热量。以水为例,其汽化热是比热容的500倍以上,这意味着极少量工质即可带走大量热量。实验数据显示,在同等热负荷下,两相系统所需流量仅为单相方案的1/51/9,大幅降低泵组能耗与管路负荷。

2天然恒温特性,实现芯片级±1℃精准控温

在两相换热过程中,只要压力稳定,工质在沸腾阶段温度几乎不变。这一特性使得冷板表面温度高度均匀,即便芯片功耗剧烈波动,也能维持在设定温区内。相比单相液冷±5℃以上的波动,两相系统将温度稳定性提升了一个数量级,从根本上减少热应力损伤与性能抖动。

3航天级技术下放,验证极端工况下的可靠性

该技术最早应用于航天器红外探测器、雷达系统等对温控要求极高的场景,历经真空、振动、长周期运行考验。如今,这套经过极端环境验证的热控体系被引入地面数据中心,不仅带来更高的换热效率,更具备出色的环境适应性与长寿命运行能力。

图片

四、系统价值:不止于降温,而是构建可运营的热管理底座

1让每一瓦算力都稳、省、可控

实际案例显示,采用两相液冷方案后,AI训练任务的热降频事件减少90%以上,服务器在高负载下仍能保持连续输出。同时,由于泵组能耗降低、风扇依赖减少,局部pPUE可优化至1.051.10,显著改善整体能效表现。

2支持不停机改造,盘活现有机房30%以上潜在算力

通过模块化背板式或冷板式设计,可在不中断业务的前提下完成部署。例如某机房项目通过加装两相背板系统,在未新增电力与空间的情况下,将机柜利用率提升近40% ,实现了对既有资源的深度挖潜。

3与物联网平台深度融合,实现可管-可控-可运营

真正的价值不仅在于硬件,更在于将两相液冷系统接入统一的物联网SaaS平台。通过实时采集温度、压力、流量、能耗等数据,结合AI算法进行动态寻优与故障预警,运维人员可远程完成策略调整、健康评估与节能优化,从被动维修走向预测性运维。

4从单一散热到系统节能,推动管理模式升级

这种能力不仅适用于数据中心,也在智慧照明、工业节能等场景中展现出共通逻辑:通过软件定义硬件,将粗放管理转变为精细运营。无论是地铁隧道的动态调光,还是工厂产线的能耗优化,其本质都是通过平台化手段实现状态可见、过程可管、结果可优

未来的热管理竞争,不会停留在谁更冷,而将聚焦于谁更稳、更智能、更可持续。真正值得信赖的解决方案,必须既能应对当下高密度算力的严峻挑战,又能为未来三到五年的技术演进预留空间——而这,正是一套融合航天级技术、精准控温能力与物联网智能运维的系统化路径所指向的方向。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐