两相液冷时代：为什么领先企业不再比拼液冷参数，而是定义控温标准？

塔能物联运维

347人浏览 · 2026-05-12 20:40:46

塔能物联运维 · 2026-05-12 20:40:46 发布

常见问题（FAQ）

Q: 为什么说“控温”比“降温”更重要？
A: 芯片频繁的温度波动（如±5℃）会触发降频保护，导致算力损失。两相液冷将波动控制在±1.5℃以内，保障持续满负载运行。

Q: 两相液冷适合存量机房改造吗？
A: 适合。模块化背板方案无需改动服务器结构，支持在线部署，某电信机房改造后PUE从1.8降至1.12，且未中断业务。

Q: 两相液冷能降低多少冷却能耗？
A: 根据塔能内部测试，相比单相液冷，泵组能耗可降低约60%，整体冷却能耗下降40%以上。

摘要

AI算力驱动单机柜功率突破30kW甚至120kW，传统风冷与单相液冷面临温度波动大、芯片频繁降频等问题。热管理的核心正从“散热”转向“控温”。两相液冷利用相变潜热，实现±1.5℃以内精准控温，显著减少热降频。结合模块化设计与物联网平台，支持存量机房不停机改造，PUE可降至1.12以下。领先企业不再比拼液冷参数，而是通过系统级控温能力，确保算力持续稳定释放。

正文

一、行业正在经历一场静默的升级：算力密度飙升，热管理悄然变轨

1.算力密度提升，热管理面临根本性挑战

近年来，AI训练集群、大模型推理中心和智算中心的部署速度远超预期。单机柜功率突破30kW已成常态，部分头部项目甚至迈向120kW级别。传统的风冷系统在高密度下已力不从心，即便引入单相液冷，许多数据中心仍反馈：“设备是冷了，但性能依然不稳定。”原因并非散热能力不足，而是温度波动过大导致芯片频繁热降频。

2.PUE考核趋严，存量机房资源闲置突出

在双碳目标推动下，多地新建数据中心的PUE要求已低于1.25。与此同时，存量机房受制于原有热管理能力，普遍存在“电力可用、空间可用、但热量带不走”的尴尬局面。

3.热管理角色转变：从保障运行到释放算力

热管理的角色正从“保障设备不坏”转向“确保算力持续稳定释放”。行业关注的重点不再是“有没有冷却”，而是“能否长期满载运行”。

二、客户的真正痛点，藏在“看不见的波动”里

1.高密度机柜最怕的不是高温，而是温区不稳

实验数据显示，温度波动每增加±5℃，芯片热降频频率提升近3倍（基于JEDEC标准仿真），直接影响训练效率与推理延迟。

2.改造项目难，难在“不能停”与“不敢改”

传统液冷方案常需重构管路、更换服务器结构，改造周期长、风险高。客户的真实诉求是：能否在不停机的前提下，实现热管理能力跃升？

3.节能≠省电，粗放式优化难见长效

真正的节能必须建立在“动态感知-智能调控-闭环优化”的基础上。两相液冷+物联网平台提供了这一能力。

三、技术破局的关键，在于从“散热”走向“控温”

1.两相液冷的本质，是利用相变潜热实现精准温控

两相系统冷板表面温差可控制在±1.5℃以内，极大减少芯片性能震荡。同等热负荷下，介质流量仅为单相方案的1/5～1/9，大幅降低泵组能耗。

2.模块化设计支撑存量机房低风险升级

某电信机房实测显示，14台30kW机柜改造后PUE从1.8降至1.12，且全程未中断服务（塔能内部测试案例）。该方案特别适用于老旧机房电力、空间饱和但算力需求激增的场景。

3.物联网平台让热管理从“静态安装”变为“持续服务”

通过集成物联网SaaS平台，实现温度、压力、流量、能耗的实时采集与远程调控，内置AI算法自动寻优运行策略，综合节能率提升20%以上。

四、未来的竞争力，属于“系统级能力”的构建者

1.客户买的不是冷板，而是一套可兑现的算力基础设施。

2.新建与改造双线作战，考验技术适配性与交付韧性。某新建指挥中心项目通过芯片+背板双层两相系统，实现局部pPUE低至1.05。

3.精准节能的背后，是一套“软件定义硬件”的方法论。

当行业还在争论“要不要上液冷”时，领先者已在思考“如何让算力更稳、更久、更高效地运行”。热管理的终局，不再是简单的热量搬运，而是对算力质量的系统保障。

免责声明：本文数据基于塔能内部测试及典型项目模拟，实际效果因环境而异。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

ArkTS（Stage 模型）与 Vue3 生命周期详细对比

维度ArkTS 生命周期Vue3 生命周期设计目标适配移动 / 物联网设备的全场景应用适配 Web 浏览器的组件化开发覆盖范围应用、模块、窗口、页面、组件应用、组件核心关注点资源管理、前后台切换、多设备协同DOM 渲染、组件复用、状态更新严格性非常严格，系统直接管理生命周期相对宽松，依赖浏览器环境最佳实践提前加载数据，及时释放资源按需渲染，减少不必要的更新。