AI芯片走向垂直供电的必然性:从功耗墙到性能释放的架构革命

随着AI模型参数规模从十亿级向万亿级迈进,单芯片算力需求呈指数级增长,由此引发的“功耗墙”与“供电墙”已成为制约AI芯片性能持续提升的核心瓶颈。台积电(TSMC)等先进制程厂商之所以强力推动垂直供电(Backside Power Delivery Network, BSPDN)技术,是因为传统的正面供电网络在3nm及以下节点已难以为继,而垂直供电是从物理层和架构层突破供电瓶颈、释放AI芯片性能潜力的关键技术路径。

一、 传统正面供电网络的困境:AI芯片的“阿喀琉斯之踵”

在传统芯片设计中,供电网络(PDN)与信号互连网络共享芯片的正面金属层。随着制程微缩和芯片规模扩大,这一架构在AI芯片上暴露出三大致命问题,其根源可基于第一性原理分析:

问题维度 物理/架构根源 对AI芯片的具体影响
1. 供电效率瓶颈 IR压降与电迁移:供电路径长、金属线电阻随尺寸缩小急剧增加,导致到达晶体管的标准电压(Vdd)严重衰减(IR Drop)。同时,超高电流密度加剧电迁移效应,影响可靠性。 AI计算单元(如Tensor Core)无法获得稳定、充足的工作电压,导致实际工作频率(Fmax)远低于设计目标,性能无法充分发挥。高负载下可能因局部电压不足引发计算错误。
2. 布线资源挤占 布线拥塞:为降低电阻,供电网络需要占用大量宽而厚的顶层金属资源,与日益复杂的全局信号互连线争夺有限的布线通道。 严重限制了芯片的布通率,制约了计算核心与高带宽内存(HBM)等模块间的高速互连设计,形成“内存墙”之外的“互连墙”,阻碍了AI芯片架构创新。
3. 热管理挑战 热密度集中:供电网络产生的焦耳热与晶体管动态功耗产生的热量在芯片正面叠加,形成局部热点。而供电金属层本身也阻碍了热量向散热器的传导。 AI训练任务长期满负荷运行,热点温度极易触发芯片热节流(Thermal Throttling),迫使降频运行,显著降低算力可持续性和硬件利用率。
// 概念性代码:模拟传统PDN下因IR压降导致的计算单元性能波动
class TensorCore {
private:
    double actual_Vdd; // 实际获得的电压,受供电网络阻抗影响
    double designed_Fmax; // 设计最大频率
public:
    double getEffectiveFrequency() {
        // 简化模型:频率与电压近似线性相关(实际为非线性)
        double voltage_drop_ratio = actual_Vdd / NOMINAL_VDD;
        // IR压降导致有效频率下降
        double effective_Fmax = designed_Fmax * voltage_drop_ratio;
        // 电压过低还可能引发逻辑错误
        if (actual_Vdd < MIN_SAFE_VDD) {
            logError("Voltage drop too severe, computation may be unreliable.");
        }
        return effective_Fmax;
    }
};
// 在传统PDN中,`actual_Vdd` 会因与电源距离、相邻单元活动情况而有显著差异。
二、 垂直供电(BSPDN)的核心原理与优势

垂直供电是一种颠覆性的芯片供电架构。其核心思想是:将供电网络从芯片正面(与晶体管同侧)转移到芯片背面,通过硅通孔(TSV)或纳米硅通孔(nTSV)直接从背面将电源和地馈送到晶体管。台积电将其称为Backside Power Rail技术,并在其2nm(N2)及更先进节点中作为关键特性推出。

垂直供电架构的变革性优势

  1. 供电路径最短化,极致降低IR压降

    • 原理:电源直接从芯片背面的宏焊盘(Bump)通过垂直互连直达晶体管源/漏区,路径比传统正面横向绕线缩短数个数量级。
    • 影响:IR压降可降低高达5-10倍。这意味着晶体管可以获得更稳定、更接近标称值的电压,为提升工作频率(通常可提升10-15%)和降低工作电压(从而降低动态功耗)创造了条件。
  2. 释放正面布线资源,优化信号互连

    • 原理:正面金属层完全让位给全局信号互连和时钟布线。
    • 影响:极大缓解了布线拥塞,允许设计更宽、更短的高速数据总线(如连接AI核心与HBM的PHY接口),提升内存带宽利用率。同时,为采用更复杂、性能更高的逻辑单元(如CFET晶体管)布局提供了空间。
  3. 改善热管理与封装集成

    • 原理:供电产生的热量主要从背面散出,与晶体管活性区的热量路径分离。背面供电金属层还可以作为高效的热扩散层。
    • 影响:降低了芯片正面的热密度,结合先进封装技术(如CoWoS),可将散热器更直接地作用于热点区域,提升整体散热效率,保障AI芯片在持续高负载下的稳定运行。
# 对比传统供电与垂直供电的芯片层级架构
Traditional_Frontside_PDN:
  layers:
    - Metal10 (Thick, for Power/Ground)
    - Metal9 ... Metal1 (Signal Routing mixed with Power Grid)
    - Transistor Layer
  issues:
    - "Power routing competes with signal routing."
    - "Long horizontal power paths cause IR drop."
    - "Heat from transistors and power grid superimposes."

Backside_PDN:
  layers:
    - Frontside: Metal(M) layers dedicated to SIGNAL routing only.
    - Transistor Layer
    - Silicon Substrate
    - Backside: Dedicated POWER Delivery Network (Thick Metal Rails)
    - Backside Power Bumps (直接连接封装供电)
  advantages:
    - "Decoupled power and signal routing: No competition."
    - "Ultra-short vertical power delivery: Minimal IR drop."
    - "Improved thermal path: Heat from transistors can dissipate upward (through frontside) and downward (through backside PDN)."
三、 为何AI芯片是垂直供电的首要驱动力和受益者?

垂直供电技术对所有高性能计算芯片都有益,但AI芯片的需求最为迫切,收益也最大:

  1. 极高的功耗密度与计算密度:大型AI训练芯片(如英伟达H100、AMD MI300X)的功耗已突破700W,计算核心区的功耗密度惊人。垂直供电是满足其瞬时超高电流需求(可能超过1000A)同时保持电压稳定的唯一可行方案。
  2. 对电压噪声极度敏感:AI计算,特别是低精度训练(如FP8)和推理(如INT4),对电源完整性要求极高。微小的电压波动可能导致计算错误,影响模型训练收敛或推理精度。垂直供电提供的“洁净”电源是保障计算正确性的基础。
  3. 内存带宽瓶颈的缓解:AI性能严重受限于内存带宽(内存墙)。垂直供电释放的正面布线资源,可直接用于增加HBM PHY的通道数量或提升互连线速度,是突破带宽瓶颈的关键使能技术。
  4. 支持下一代晶体管架构:随着制程进入埃米时代,环栅晶体管(GAA)乃至互补场效应晶体管(CFET)成为必然。这些3D结构晶体管需要更复杂、更密集的互连。将供电网络移至背面,是容纳这些先进晶体管并为其高效供电的前提。
四、 技术挑战与台积电的引领作用

尽管前景广阔,垂直供电的实现面临巨大挑战:

  • 晶圆减薄与背面工艺:需要将晶圆减薄至几十微米,并在背面进行高精度光刻、刻蚀和金属化,工艺难度和成本激增。
  • 热应力与机械可靠性:超薄晶圆在封装和运行中易受热应力影响,可能导致翘曲或开裂。
  • 设计与EDA工具革新:需要全新的芯片设计方法论、标准单元库和EDA工具链来支持这种三维供电架构。

台积电作为产业领导者,正通过以下方式推动垂直供电落地

  1. 工艺整合:在其最先进的N2(2nm)及后续节点,将BSPDN作为标准工艺选项提供,为客户提供经过验证的、可靠的制造方案。
  2. 与设计生态协同:与EDA巨头(如Synopsys、Cadence)及核心客户(如英伟达、苹果)紧密合作,共同开发设计流程、IP和验证方法学。
  3. 先进封装协同:将BSPDN与CoWoS、SoIC等3D封装技术结合,实现从芯片级到系统级的全方位供电与散热优化。

结论:AI芯片对算力、能效和带宽的极致追求,与传统正面供电网络的物理局限形成了不可调和的矛盾。台积电推动的垂直供电,通过将供电网络从正面转移至背面,实现了供电与互连的解耦与优化,是突破当前“供电墙”、“热墙”和“互连墙”的底层架构革命。它不仅是制程微缩到一定阶段的必然选择,更是释放未来AI芯片(特别是万亿参数模型训练所需芯片)性能潜力的关键使能技术。随着台积电在2nm及更先进节点上将该技术量产化,垂直供电将成为下一代高性能AI芯片的标配,重塑AI硬件算力的发展轨迹。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐