常见问题(FAQ

Q: 为什么说控温降温更重要?
A: 芯片频繁的温度波动(如±5℃)会触发降频保护,导致算力损失。两相液冷将波动控制在±1.5℃以内,保障持续满负载运行。

Q: 两相液冷适合存量机房改造吗?
A: 适合。模块化背板方案无需改动服务器结构,支持在线部署,某电信机房改造后PUE1.8降至1.12,且未中断业务。

Q: 两相液冷能降低多少冷却能耗?
A: 根据塔能内部测试,相比单相液冷,泵组能耗可降低约60%,整体冷却能耗下降40%以上。

摘要

AI算力驱动单机柜功率突破30kW甚至120kW,传统风冷与单相液冷面临温度波动大、芯片频繁降频等问题。热管理的核心正从散热转向控温。两相液冷利用相变潜热,实现±1.5℃以内精准控温,显著减少热降频。结合模块化设计与物联网平台,支持存量机房不停机改造,PUE可降至1.12以下。领先企业不再比拼液冷参数,而是通过系统级控温能力,确保算力持续稳定释放。

正文

图片

一、行业正在经历一场静默的升级:算力密度飙升,热管理悄然变轨

1.算力密度提升,热管理面临根本性挑战

近年来,AI训练集群、大模型推理中心和智算中心的部署速度远超预期。单机柜功率突破30kW已成常态,部分头部项目甚至迈向120kW级别。传统的风冷系统在高密度下已力不从心,即便引入单相液冷,许多数据中心仍反馈:设备是冷了,但性能依然不稳定。原因并非散热能力不足,而是温度波动过大导致芯片频繁热降频。

2.PUE考核趋严,存量机房资源闲置突出

在双碳目标推动下,多地新建数据中心的PUE要求已低于1.25。与此同时,存量机房受制于原有热管理能力,普遍存在电力可用、空间可用、但热量带不走的尴尬局面。

3.热管理角色转变:从保障运行到释放算力

热管理的角色正从保障设备不坏转向确保算力持续稳定释放。行业关注的重点不再是有没有冷却,而是能否长期满载运行

图片

二、客户的真正痛点,藏在看不见的波动

1.高密度机柜最怕的不是高温,而是温区不稳

实验数据显示,温度波动每增加±5℃,芯片热降频频率提升近3倍(基于JEDEC标准仿真),直接影响训练效率与推理延迟。

2.改造项目难,难在不能停不敢改

传统液冷方案常需重构管路、更换服务器结构,改造周期长、风险高。客户的真实诉求是:能否在不停机的前提下,实现热管理能力跃升?

3.节能省电,粗放式优化难见长效

真正的节能必须建立在动态感知-智能调控-闭环优化的基础上。两相液冷+物联网平台提供了这一能力。

图片

三、技术破局的关键,在于从散热走向控温

1.两相液冷的本质,是利用相变潜热实现精准温控

两相系统冷板表面温差可控制在±1.5℃以内,极大减少芯片性能震荡。同等热负荷下,介质流量仅为单相方案的1/51/9,大幅降低泵组能耗。

2.模块化设计支撑存量机房低风险升级

某电信机房实测显示,1430kW机柜改造后PUE1.8降至1.12,且全程未中断服务(塔能内部测试案例)。该方案特别适用于老旧机房电力、空间饱和但算力需求激增的场景。

3.物联网平台让热管理从静态安装变为持续服务

通过集成物联网SaaS平台,实现温度、压力、流量、能耗的实时采集与远程调控,内置AI算法自动寻优运行策略,综合节能率提升20%以上。

图片

四、未来的竞争力,属于系统级能力的构建者

1.客户买的不是冷板,而是一套可兑现的算力基础设施。

2.新建与改造双线作战,考验技术适配性与交付韧性。某新建指挥中心项目通过芯片+背板双层两相系统,实现局部pPUE低至1.05

3.准节能的背后,是一套软件定义硬件的方法论。

当行业还在争论要不要上液冷时,领先者已在思考如何让算力更稳、更久、更高效地运行。热管理的终局,不再是简单的热量搬运,而是对算力质量的系统保障。

免责声明:本文数据基于塔能内部测试及典型项目模拟,实际效果因环境而异。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐