【高清视频】AI服务器调试利器:PCIe功耗分析设备 Quarch PAM 深度解析

关于各类进口Nvidia, AMD以及国产GPU卡,AI加速卡的讨论不绝于耳,我们经常听说的某某卡的功耗都要上2000W了。大家有没有想过这些GPU卡如何监控和测量它的功耗,以及通过追踪这些PCIe sideband信号诊断一些问题呢?
我们今天的高清视频就带大家来看看业内主流公司都是如何来进行这类高功耗GPU卡进行功耗分析和各类sideband边带信号分析的?
【高清视频】AI服务器调试利器:PCIe功耗分析设备 Quarch PAM 深度解析
AI服务器调试利器:PCIe功耗分析设备 Quarch PAM 深度解析
——同时分析功耗与PCIe Sideband信号的工程级工具
在 AI服务器、GPU计算卡、NVMe SSD 和 PCIe Switch 等设备的验证过程中,工程师经常会遇到一些非常棘手的问题,例如:
-
• PCIe设备偶发 无法枚举
-
• GPU 训练过程中突然掉卡
-
• NVMe SSD 在高负载下 reset
-
• PCIe Switch 链路反复 retrain
-
• AI 推理服务器 随机卡死
很多时候这些问题并不是:
-
• PCIe 协议错误
-
• Firmware Bug
-
• Driver Bug
而是与 电源行为(Power Behavior) 密切相关。
例如:
-
• PCIe 12V rail 瞬间电压跌落
-
• GPU 电流 spike
-
• 外部供电 AUX power 不稳定
-
• REFCLK / PERST 与供电时序不匹配
传统工具(示波器 + 万用表)在这种场景下存在明显局限:
-
• 难以 长时间记录
-
• 无法 同步多个信号
-
• 难以 关联 PCIe 行为
因此在服务器验证领域,出现了一类专门的设备:
PCIe 功耗分析工具
其中最典型、最专业的一类设备就是:
英国 Quarch 公司的 PAM(Power Analysis Module)
一、什么是 Quarch PAM
PAM 是 Power Analysis Module 的缩写。
它是一种 专门针对 PCIe 插卡设备的功耗分析模块。
其核心能力是:
在 PCIe 插卡与主机之间透明串接,实时监测:
-
• 电压
-
• 电流
-
• 功耗
-
• PCIe Sideband 信号
视频中也展示了该设备的基本用途:
PAM 可以串接在 PCIe 插卡链路中间,对设备的电源行为和边带信号进行实时监控。
二、PAM系统整体架构
典型 PAM 系统结构如下:
Host Server
│
│ PCIe Slot
│
┌─────────────── ────┐
│ Quarch PCIe Fixture │
│ (AIC测试治具) │
└───────────────────┘
│
│ USB-C 控制
│
┌───────────────────┐
│ PAM 管理模块 │
│ Power Analysis │
└───────────────────┘
│
│ USB / Ethernet
│
控制电脑
Power Studio
系统由三部分组成:
1 PAM 管理模块
负责:
-
• 数据采集
-
• 信号汇总
-
• 数据传输
2 PCIe 测试治具(Fixture)
用于插入:
-
• PCIe NIC
-
• NVMe AIC
-
• FPGA
-
• PCIe Switch
-
• GPU
视频中展示的是:
PCIe Gen5 x16 AIC Fixture。
3 Power Studio 软件
用于:
-
• 控制设备
-
• 实时监控
-
• 数据记录
-
• Trace分析
三、PAM最大的技术优势:同时分析功耗与Sideband信号
这是 PAM 与传统电源分析工具最大的区别。
PAM 不仅可以监控:
电压 / 电流 / 功耗
还可以同时监控:
PCIe Sideband 信号
例如:
|
信号 |
作用 |
|---|---|
|
PERST# |
PCIe设备复位 |
|
REFCLKOK |
参考时钟稳定 |
|
CLKREQ# |
低功耗唤醒 |
|
WAKE# |
设备唤醒 |
这些信号在 PCIe链路初始化 中极为关键。
视频中就展示了:
可以同时监控:
-
• 12V 电压
-
• 12V 电流
-
• 12V 功耗
-
• PERST
-
• REFCLKOK
这些信号在时间轴上同步显示。
这使工程师可以清晰看到:
Power 上电
↓
REFCLK stable
↓
PERST deassert
↓
PCIe LTSSM start
这种 Power + Sideband 同步分析能力,是服务器验证中非常关键的能力。
四、PAM支持的PCIe设备类型
1 标准PCIe插卡(≤75W)
例如:
-
• PCIe NIC
-
• NVMe AIC SSD
-
• FPGA卡
-
• PCIe Switch卡
这些设备通常直接通过 PCIe slot 供电。
因此只需要:
PCIe AIC Fixture
即可完成测试。
2 高功耗GPU设备
现代 AI GPU 功耗已经非常惊人:
|
GPU |
功耗 |
|---|---|
|
A100 |
400W |
|
H100 |
700W |
|
B100 |
>1000W |
视频中提到:
一些 GPU 卡甚至可能达到:
700W、1000W、1500W。
因此 GPU 通常需要:
额外外接供电
例如:
-
• 8-pin
-
• 16-pin
-
• 12VHPWR
PAM 提供:
AUX power fixture
可以监控:
-
• GPU slot power
-
• GPU external power
从而完整分析 GPU 的功耗行为。
五、Power Studio 软件介绍
Power Studio 是 Quarch PAM 的核心控制软件。
视频展示的版本为:
Power Studio v1.50。
软件主要功能包括:
-
• 实时数据采集
-
• Trace记录
-
• 通道管理
-
• 波形分析
-
• 统计分析
六、毫秒级功耗采样
Power Studio 支持非常高精度采样。
视频示例:
采样周期
1.024 ms
这意味着系统可以捕捉:
-
• GPU workload spike
-
• NVMe I/O burst
-
• PCIe reset
-
• power transient
七、Trace记录与长时间分析
Power Studio 可以持续记录:
Voltage
Current
Power
Sideband
所有数据会写入电脑硬盘。
视频中也特别提醒:
默认情况下:
关闭软件时可能删除 trace。
因此建议:
修改设置为
Auto Save Recording
否则长时间测试数据可能丢失。
八、强大的波形分析能力
Power Studio 的分析界面类似示波器。
支持:
1 时间轴缩放
可从分钟级放大到毫秒级。
2 游标测量
通过:
Cursor A
Cursor B
可测量:
-
• Δtime
-
• Δvoltage
-
• Δcurrent
-
• Δpower
例如视频示例:
Δtime = 5ms
Δvoltage = 2.5V
Δcurrent = 0.358A
Δpower = 2.5W
3 区间统计
软件可以统计:
max
min
avg
例如:
12V voltage
12V current
12V power
九、PAM在AI服务器验证中的典型应用
随着 AI服务器功耗越来越高,PAM 的价值越来越明显。
场景1:PCIe设备枚举失败
BIOS启动后:
PCIe device missing
可能原因:
Power ramp slow
PERST timing error
REFCLK unstable
PAM 可以同时观察:
Power ramp
PERST
REFCLKOK
快速定位问题。
场景2:GPU训练掉卡
AI训练过程中:
CUDA error
GPU disappeared
可能原因:
GPU current spike
power transient
VRM instability
PAM 可记录 GPU 电流变化。
场景3:NVMe SSD高负载reset
典型情况:
fio workload
SSD reset
可能原因:
12V droop
power spike
场景4:PCIe Switch调试
视频中演示的就是:
PCIe Switch card
通过 PAM 可以观察:
Switch power profile
PCIe initialization
十、PAM 与 PCIe Protocol Analyzer 的互补关系
服务器调试通常需要两类工具:
|
工具 |
分析内容 |
|---|---|
|
PCIe Protocol Analyzer |
协议层 |
|
Quarch PAM |
功耗行为 |
两者结合可以做到:
Protocol Event
↓
Power Behavior
例如:
PCIe FLR
↓
GPU power drop
这种联合分析能力在服务器验证中非常关键。
十一、AI服务器时代的意义
随着 GPU 功耗不断上升:
|
GPU |
功耗 |
|---|---|
|
A100 |
400W |
|
H100 |
700W |
|
B200 |
>1000W |
服务器系统越来越复杂:
-
• 电源模块
-
• VRM
-
• PCIe供电
-
• 外部供电
任何一个环节异常,都可能导致系统不稳定。
因此:
Power Analysis 已成为服务器验证的重要环节。
而 Quarch PAM 正是这一领域最专业的解决方案之一。
十二、总结
Quarch PAM 是一款面向 PCIe 插卡设备的 专业功耗分析工具。
其核心价值在于:
同时监控
Voltage
Current
Power
PCIe Sideband signals
这种 功耗 + PCIe信号同步分析能力 在服务器验证中极为重要。
PAM 已广泛应用于:
-
• GPU服务器验证
-
• NVMe SSD测试
-
• PCIe Switch调试
-
• AI推理服务器调试
在 AI计算功耗不断增长的时代,PAM 正成为服务器工程师的重要调试利器。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)