关于各类进口Nvidia, AMD以及国产GPU卡,AI加速卡的讨论不绝于耳,我们经常听说的某某卡的功耗都要上2000W了。大家有没有想过这些GPU卡如何监控和测量它的功耗,以及通过追踪这些PCIe sideband信号诊断一些问题呢?

我们今天的高清视频就带大家来看看业内主流公司都是如何来进行这类高功耗GPU卡进行功耗分析和各类sideband边带信号分析的?

【高清视频】AI服务器调试利器:PCIe功耗分析设备 Quarch PAM 深度解析

AI服务器调试利器:PCIe功耗分析设备 Quarch PAM 深度解析

——同时分析功耗与PCIe Sideband信号的工程级工具

在 AI服务器、GPU计算卡、NVMe SSD 和 PCIe Switch 等设备的验证过程中,工程师经常会遇到一些非常棘手的问题,例如:

  • • PCIe设备偶发 无法枚举

  • • GPU 训练过程中突然掉卡

  • • NVMe SSD 在高负载下 reset

  • • PCIe Switch 链路反复 retrain

  • • AI 推理服务器 随机卡死

很多时候这些问题并不是:

  • • PCIe 协议错误

  • • Firmware Bug

  • • Driver Bug

而是与 电源行为(Power Behavior) 密切相关。

例如:

  • • PCIe 12V rail 瞬间电压跌落

  • • GPU 电流 spike

  • • 外部供电 AUX power 不稳定

  • • REFCLK / PERST 与供电时序不匹配

传统工具(示波器 + 万用表)在这种场景下存在明显局限:

  • • 难以 长时间记录

  • • 无法 同步多个信号

  • • 难以 关联 PCIe 行为

因此在服务器验证领域,出现了一类专门的设备:

PCIe 功耗分析工具

其中最典型、最专业的一类设备就是:

英国 Quarch 公司的 PAM(Power Analysis Module)


一、什么是 Quarch PAM

PAM 是 Power Analysis Module 的缩写。

它是一种 专门针对 PCIe 插卡设备的功耗分析模块

其核心能力是:

在 PCIe 插卡与主机之间透明串接,实时监测:

  • • 电压

  • • 电流

  • • 功耗

  • • PCIe Sideband 信号

视频中也展示了该设备的基本用途:

PAM 可以串接在 PCIe 插卡链路中间,对设备的电源行为和边带信号进行实时监控。


二、PAM系统整体架构

典型 PAM 系统结构如下:

Host Server
      │
      │ PCIe Slot
      │
┌───────────────  ────┐
│ Quarch PCIe Fixture │
│ (AIC测试治具)      │
└───────────────────┘
      │
      │ USB-C 控制
      │
┌───────────────────┐
│ PAM 管理模块       │
│ Power Analysis    │
└───────────────────┘
      │
      │ USB / Ethernet
      │
控制电脑
Power Studio

系统由三部分组成:

1 PAM 管理模块

负责:

  • • 数据采集

  • • 信号汇总

  • • 数据传输


2 PCIe 测试治具(Fixture)

用于插入:

  • • PCIe NIC

  • • NVMe AIC

  • • FPGA

  • • PCIe Switch

  • • GPU

视频中展示的是:

PCIe Gen5 x16 AIC Fixture


3 Power Studio 软件

用于:

  • • 控制设备

  • • 实时监控

  • • 数据记录

  • • Trace分析


三、PAM最大的技术优势:同时分析功耗与Sideband信号

这是 PAM 与传统电源分析工具最大的区别。

PAM 不仅可以监控:

电压 / 电流 / 功耗

还可以同时监控:

PCIe Sideband 信号

例如:

信号

作用

PERST#

PCIe设备复位

REFCLKOK

参考时钟稳定

CLKREQ#

低功耗唤醒

WAKE#

设备唤醒

这些信号在 PCIe链路初始化 中极为关键。

视频中就展示了:

可以同时监控:

  • • 12V 电压

  • • 12V 电流

  • • 12V 功耗

  • • PERST

  • • REFCLKOK

这些信号在时间轴上同步显示。

这使工程师可以清晰看到:

Power 上电
      ↓
REFCLK stable
      ↓
PERST deassert
      ↓
PCIe LTSSM start

这种 Power + Sideband 同步分析能力,是服务器验证中非常关键的能力。


四、PAM支持的PCIe设备类型

1 标准PCIe插卡(≤75W)

例如:

  • • PCIe NIC

  • • NVMe AIC SSD

  • • FPGA卡

  • • PCIe Switch卡

这些设备通常直接通过 PCIe slot 供电。

因此只需要:

PCIe AIC Fixture

即可完成测试。


2 高功耗GPU设备

现代 AI GPU 功耗已经非常惊人:

GPU

功耗

A100

400W

H100

700W

B100

>1000W

视频中提到:

一些 GPU 卡甚至可能达到:

700W、1000W、1500W

因此 GPU 通常需要:

额外外接供电

例如:

  • • 8-pin

  • • 16-pin

  • • 12VHPWR

PAM 提供:

AUX power fixture

可以监控:

  • • GPU slot power

  • • GPU external power

从而完整分析 GPU 的功耗行为。


五、Power Studio 软件介绍

Power Studio 是 Quarch PAM 的核心控制软件。

视频展示的版本为:

Power Studio v1.50

软件主要功能包括:

  • • 实时数据采集

  • • Trace记录

  • • 通道管理

  • • 波形分析

  • • 统计分析


六、毫秒级功耗采样

Power Studio 支持非常高精度采样。

视频示例:

采样周期
1.024 ms

这意味着系统可以捕捉:

  • • GPU workload spike

  • • NVMe I/O burst

  • • PCIe reset

  • • power transient


七、Trace记录与长时间分析

Power Studio 可以持续记录:

Voltage
Current
Power
Sideband

所有数据会写入电脑硬盘。

视频中也特别提醒:

默认情况下:

关闭软件时可能删除 trace。

因此建议:

修改设置为

Auto Save Recording

否则长时间测试数据可能丢失。


八、强大的波形分析能力

Power Studio 的分析界面类似示波器。

支持:

1 时间轴缩放

可从分钟级放大到毫秒级。


2 游标测量

通过:

Cursor A
Cursor B

可测量:

  • • Δtime

  • • Δvoltage

  • • Δcurrent

  • • Δpower

例如视频示例:

Δtime = 5ms
Δvoltage = 2.5V
Δcurrent = 0.358A
Δpower = 2.5W

3 区间统计

软件可以统计:

max
min
avg

例如:

12V voltage
12V current
12V power

九、PAM在AI服务器验证中的典型应用

随着 AI服务器功耗越来越高,PAM 的价值越来越明显。


场景1:PCIe设备枚举失败

BIOS启动后:

PCIe device missing

可能原因:

Power ramp slow
PERST timing error
REFCLK unstable

PAM 可以同时观察:

Power ramp
PERST
REFCLKOK

快速定位问题。


场景2:GPU训练掉卡

AI训练过程中:

CUDA error
GPU disappeared

可能原因:

GPU current spike
power transient
VRM instability

PAM 可记录 GPU 电流变化。


场景3:NVMe SSD高负载reset

典型情况:

fio workload
SSD reset

可能原因:

12V droop
power spike

场景4:PCIe Switch调试

视频中演示的就是:

PCIe Switch card

通过 PAM 可以观察:

Switch power profile
PCIe initialization

十、PAM 与 PCIe Protocol Analyzer 的互补关系

服务器调试通常需要两类工具:

工具

分析内容

PCIe Protocol Analyzer

协议层

Quarch PAM

功耗行为

两者结合可以做到:

Protocol Event
        ↓
Power Behavior

例如:

PCIe FLR
     ↓
GPU power drop

这种联合分析能力在服务器验证中非常关键。


十一、AI服务器时代的意义

随着 GPU 功耗不断上升:

GPU

功耗

A100

400W

H100

700W

B200

>1000W

服务器系统越来越复杂:

  • • 电源模块

  • • VRM

  • • PCIe供电

  • • 外部供电

任何一个环节异常,都可能导致系统不稳定。

因此:

Power Analysis 已成为服务器验证的重要环节。

而 Quarch PAM 正是这一领域最专业的解决方案之一。


十二、总结

Quarch PAM 是一款面向 PCIe 插卡设备的 专业功耗分析工具

其核心价值在于:

同时监控

Voltage
Current
Power
PCIe Sideband signals

这种 功耗 + PCIe信号同步分析能力 在服务器验证中极为重要。

PAM 已广泛应用于:

  • • GPU服务器验证

  • • NVMe SSD测试

  • • PCIe Switch调试

  • • AI推理服务器调试

在 AI计算功耗不断增长的时代,PAM 正成为服务器工程师的重要调试利器。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐