常见问题(FAQ

Q: 新建智算中心采用两相液冷,初始投资比单相高多少?
A: 初始设备成本约高15-25%,但考虑更高机柜密度、更低PUE和更长寿命,整体TCO通常更低,投资回收期约1.5-2年。

Q: 两相液冷改造后能提升多少算力?
A: 实测数据显示,在不新增电力与空间前提下,可释放30%50%潜在算力,机柜负载率从60%提升至90%以上。

Q: CLF 0.036是什么意思?
A: 冷却负载因子(CLF=冷却系统功耗/IT设备功耗。0.036表示冷却功耗仅为IT功耗的3.6%,即每1000W IT设备只需36W用于散热。

摘要

AI算力密度持续攀升,单相液冷面临控制精度不足、扩容受限等瓶颈。两相液冷基于相变潜热机制,实现±1.5℃以内精准控温,从根本上消除局部热点与降频风险。面向新建智算中心可支撑120kW+高密度部署;面向存量机房支持不停机改造,实测释放30%50%潜在算力,PUE降至1.3以下。两相液冷节能方案通过物联网平台实现预测-调节-验证闭环,将热管理从被动散热升级为主动控温,让算力稳稳跑满每一天。

正文

图片

一、行业正在经历一场静默的升级:从算力密度运行质量的跃迁

1.AI训练集群的爆发,正在改写数据中心的设计逻辑

过去五年,GPU单卡功耗已从300W跃升至800W以上,整机柜功率密度普遍突破30kW,部分智算中心达到120kW。传统的风冷与单相液冷系统正面临物理极限的逼近。客户关注的重点已转移:他们不再只问能不能开机,而是追问能不能全天候满载运行

2.液冷不再是要不要上的选项,而是上哪种的战略抉择

Dell‘OroDCD报告,2025年起全球新建智算中心中,液冷渗透率预计将超60%。单相液冷虽已普及,但在瞬时负载波动、局部热点集中、长期温区漂移等问题上逐渐显现控制精度不足、能耗反弹等瓶颈。

3.热管理的角色正在重构:从辅助系统变为算力兑现的核心基础设施

未来的竞争将不再停留在有没有冷却,而在于能否支撑更高密度、更长时间、更低成本的稳定算力输出

图片

二、客户的隐性痛点:表面是散热问题,本质是运营质量危机

1.热降频正在悄悄吞噬AI训练效率

GPU因温度波动触发保护机制而自动降频,哪怕每次只持续几分钟,累积下来可能导致单次训练周期延长15%以上。

2.改造风险高、停机代价大,存量机房升级举步维艰

传统液冷改造常需断电拆机、重布管路,一次停机可能造成数十万元损失。

3.运维越来越复杂,但管理工具仍停留在看得见而非管得住

设备在线不等于受控,数据可见不等于可用

图片

三、真正的破局者,早已跳出比谁更冷的竞赛,转向控温+系统+运营的综合能力构建

1.两相液冷的核心价值不在降温,而在精准控温

实验数据显示,同等热负荷下所需冷却流量仅为单相系统的1/51/9,冷板温度近乎恒定,天然具备±1.5℃以内控温能力。

2.不止于硬件革新,更在于软件定义温控的闭环构建

将泵驱两相冷板、背板级散热系统与物联网SaaS平台深度融合,实现预测-调节-验证闭环。

3.兼顾新建与改造场景

对新建智算中心:支持120kW+高密度机柜部署,pPUE局部可达1.05-1.10;对存量机房:实测释放30%50%潜在算力。某电信改造项目中,原有机房PUE1.8降至1.3CLF低至0.036(塔能内部测试)。

图片

四、未来三年,决定竞争力的不是技术本身,而是能否把技术转化为可持续的运营优势

1.客户真正买单的是一套可交付、可验证、可扩展的系统能力。

2.物联网平台是让硬件价值放大的操作系统

3.设备交付运营服务,才是精准节能的终极形态。

当行业还在争论液冷要不要上时,领先者已在思考如何让算力稳稳跑满每一天”——而两相液冷,正是这一目标的底层支撑。

免责声明本文数据基于塔能内部测试及典型项目模拟,实际效果因环境而异。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐