不是所有液冷都能支撑30kW机柜——高热流密度下的控温边界在哪里?

摘要:AI算力爆发推动单机柜功率突破30kW,传统风冷与单相液冷在高热流密度场景中逼近控温边界。两相液冷利用相变潜热,实现芯片级±1℃精准控温,所需流量仅为单相方案的1/5~1/9,可基本消除局部热点与热降频。实测显示,改造项目PUE从1.8降至1.3,综合节能超20%。从新建智算中心到存量机房改造,两相液冷+物联网平台正成为高密度算力稳定输出的确定性路径。

图片

一、行业正在经历一场静默的升级:算力密度飙升,热管理临界点已至

1AI算力爆发,机柜功率突破120kW已成常态

近年来,AI训练集群与智算中心的部署密度持续攀升。据国际数据中心与网络领域权威机构 DCD(DatacenterDynamics)与CoreSite最新数据显示,2025年起,主流AI机柜平均功率已跨过30kW门槛,部分头部项目单柜突破120kW。这不仅是数字的变化,更是对整个数据中心基础设施的重构挑战。传统风冷早已无力应对,即便单相液冷,也在高热流密度、局部热点频发的场景中逐渐逼近能力极限。

2.热管理不再是“配套”,而是算力兑现的核心瓶颈

过去,数据中心关注“能不能开机”;如今,行业真正焦虑的是:“能不能长期稳定满载运行”。GPU在高温下频繁降频、CPU因温差波动导致性能抖动、机柜因散热不足被迫降载——这些问题的背后,不是设备坏了,而是热管理跟不上算力释放的节奏。冷却系统从“保障运行”变成了“决定上限”。

3.单相液冷并非失效,但在高密度场景中正失去冗余空间

必须承认,单相液冷在中低密度场景中仍具性价比。但当芯片瞬时功耗剧烈波动、机柜前后温差加大、局部热流密度超过100W/cm²时,单相系统的温度调控能力开始吃紧。流量提升有限、泵耗增加、冷却不均等问题接踵而至。行业正在从“有没有液冷”转向“液冷够不够稳、够不够准”——这才是真正的升级信号。

二、行业普遍焦虑的:从来不是缺冷量,而是缺“稳定运行的质量”

1.高密度机柜最怕的不是“热”,而是“温度波动”

传统单相液冷的客户反馈,即使上了液冷,AI训练任务仍会出现中断或性能回落。根本原因在于,传统冷却方式难以应对芯片动态负载带来的瞬时热冲击。一次突发计算峰值,就可能导致GPU触发热保护机制,算力瞬间下跌30%以上。对客户而言,短暂的高性能不如持续稳定的输出。

,时长

2. 改造项目不敢停机,老旧机房“装不满、跑不稳、扩不动”

大量存量数据中心面临尴尬:电力充足、机柜空置,却因散热能力不足而无法满载。更棘手的是,传统液冷改造往往需要停机数日,业务中断代价高昂。客户亟需一种低风险、模块化、可在线部署的热管理升级路径,而非推倒重来。

3.节能不只是“省电费”,更是“提升单位算力的产出效率”

在双碳目标与PUE考核压力下,客户不仅要降低冷却能耗,更要提高每一瓦电力对应的算力产出。单纯的PUE优化已不够,真正有价值的是:在更低能耗下,实现更高、更稳的算力释放。这要求热管理系统不仅能“散热”,更要能“控温”“调能”“协运”。

三、为什么是现在?一种更系统的热管理方法正在浮现

1.两相液冷的本质,是用“相变潜热”换取“温度恒定”

不同于单相液冷依赖显热交换,两相液冷利用液体气化过程中的相变潜热吸收热量。这一物理机制决定了其换热效率远超传统方式——在同等热负荷下,所需流量仅为单相方案的1/5~1/9,泵组能耗大幅降低。更重要的是,两相换热过程中,冷板温度几乎恒定,天然具备±1℃以内的精准控温能力,基本消除局部热点。

2.航天级技术下放,让极端温控走进数据中心

该技术最早应用于航天器红外探测器、高功率雷达等对温度均衡性要求极高的场景。其核心优势在于:高可靠性、长寿命、强环境适应性。如今,这套经过极端工况验证的热控体系,正被用于解决数据中心最棘手的芯片级温控难题,尤其适用于600W以上大功率GPU/CPU的稳定运行。

3.从“硬件散热”到“软件定义温控”,构建可运营的热管理底座

真正的竞争力不在一块冷板,而在整套系统能否实现“可管、可控、可运营”。通过将两相液冷冷板、背板散热系统、CDU与物联网SaaS平台深度集成,可实现温度、流量、能耗的实时监测与动态优化。平台不仅能预警异常,还能根据负载变化自动调节泵压与沸点,实现弹性制冷——芯片功率从200W跳变至600W,系统无需调整流量,响应速度毫秒级。

四、这不是技术秀,而是为未来三到五年准备的确定性路径

1.新建智算中心:为高密度预留“热管理余量”,避免三年内二次改造

面对未来AI算力持续升级的趋势,新建项目不能再按当前密度设计。采用两相液冷方案,可为120kW+机柜预留充分热管理空间,局部pPUE低至1.05~1.10,确保设计密度真正兑现。同时,模块化集成冷站支持工厂预制、现场拼装,缩短交付周期30%以上。

2.存量机房改造:无需停机,盘活30%~50%闲置算力资源

针对老旧机房,推出后液冷面板+泵驱两相背板的兼容性改造方案。可在不停机状态下完成部署,不影响现行业务。湖南长沙电信某机房改造后,PUE从1.8降至1.3,机柜负载率提升40%。不是新增机房,而是让已有资源重新释放价值。

3.从“节能动作”到“节能体系”,让每一度电都产生最大回报

在广西北投集团新建机房项目中,两相液冷系统配合AI能效管理平台,实现冷却系统联合寻优控制,综合节能率超20%。更重要的是,热降频事件减少90%以上,服务器寿命因温区稳定而延长。客户获得的不仅是能耗下降,更是算力稳定性、设备生命周期与总体拥有成本(TCO)的全面提升。

当单相液冷开始接近能力边界,航天级两相液冷,用精准控温接住下一代高密度算力——不止降温,更能稳算力、降能耗、可运营。

两相液冷+ 物联网精准节能平台:让每一瓦算力都释放得稳、省、可控。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐