「智算X互联 AI-X OpenLab」专注智算互联产业和技术观察。最近几期里我们将从智算互联角度对NVIDIA GTC2 2026进行拆解。如感兴趣,请搜索关注「智算X互联 」公众号

BlueField-4 STX并非传统意义上的存储控制器或SSD扩展卡,而是NVIDIA面向“智能体AI”(Agentic AI)时代,为解决万亿参数模型长上下文推理的核心瓶颈——KV缓存(Key-Value Cache)的存储与管理——而设计的革命性架构。其核心目标是将KV缓存从消耗昂贵GPU内存(HBM)的“奢侈品”和性能瓶颈,转变为在整个AI计算集群(Pod)内可高效共享、按需供给的“标准资源”。

一、 核心问题:传统存储架构无法承载AI推理的“记忆”

在Transformer模型推理(尤其是自回归生成)中,KV缓存用于存储历史Token的Key和Value向量,避免重复计算,是模型保持“上下文记忆”的关键。随着上下文长度从千级、万级迈向百万级Token,KV缓存的大小线性增长,带来两大挑战:

  1. 容量挑战:单次会话的KV缓存轻松超过单个GPU的HBM容量(数十GB),必须溢出到系统其他部分。
  2. 性能与效率挑战:传统数据中心存储层级(G1: HBM, G2: DRAM, G3: 本地SSD, G4: 共享存储)在容量和延迟/带宽之间存在巨大鸿沟。将活跃的KV缓存放在慢速的G4共享存储中,会导致GPU因等待数据而空转,吞吐量(Tokens Per Second)和能效急剧下降。

BlueField-4 STX的使命,就是在G3(本地高速存储)和G4(远程共享存储)之间,插入一个全新的、为KV缓存优化的G3.5存储层,即 “上下文内存层”

二、 架构核心:硬件、层级与软件的深度协同

BlueField-4 STX架构是一个从硬件、网络到软件栈的完整解决方案。

1. 硬件基石:存储优化的BlueField-4处理器

  • 集成设计:单颗芯片集成了Vera CPU(88核自研Arm核心)和ConnectX-9 SuperNIC(1.6 Tbps网络接口)。
  • 专用引擎:内置硬件KV I/O加速引擎,专门优化KV缓存数据的存取、搬运和协议处理。
  • 高带宽互联:提供800Gb/s+的网络吞吐能力,为存储层与计算层之间的高速数据交换奠定物理基础。

2. 核心创新:Pod级上下文内存层


这是STX架构的灵魂。它在AI计算集群(一个Pod,通常包含多个机架的计算单元)级别,构建了一个共享的、可扩展的、低延迟的KV缓存存储池

  • 位置:位于GPU HBM(G1)和传统后端共享存储(G4)之间,作为G3.5层
  • 容量:可扩展至TB-PB级别,足以容纳海量的长上下文KV缓存。
  • 访问方式:通过Spectrum-X以太网结构(基于RoCE RDMA)实现所有计算节点(GPU、LPU)对这个共享内存池的低抖动、高带宽直接访问。这确保了跨节点、跨会话的KV缓存可以高效复用。

3. 软件栈与调度:智能的数据生命周期管理
硬件能力需要通过软件调度才能发挥最大价值,STX与NVIDIA的AI软件栈深度集成:

  • Dynamo 1.0:作为推理流水线的统一编排器,其KV块管理器负责智能决策:哪些KV块是“热”的,应保留在GPU HBM或预加载到CMX层;哪些是“温”的,可放在CMX层;哪些是“冷”的,可沉降到后端G4存储。
  • NIXL传输库:负责在GPU HBM ↔ CMX层 ↔ 后端存储之间执行零拷贝的数据搬运。它与Dynamo协同,实现KV缓存的异步预加载(Prestaging)和淘汰(Eviction)。
  • DOCA框架:为存储场景提供微服务化、硬件加速的支撑,包括KV协议终止、元数据卸载、安全加密和遥测,将CPU占用率降至近乎为零。
三、 工作模式:解耦的推理流水线

STX架构支持并优化了解耦推理模式:

  1. Prefill阶段:由Rubin GPU负责,处理完整的提示词,生成初始的KV缓存。
  2. Decode阶段:由Groq 3 LPU或GPU负责,进行自回归Token生成。
  3. KV缓存管理:由BlueField-4 STX全权负责。它将Prefill阶段产生的大容量KV缓存持久化到CMX层;在Decode阶段,根据调度策略,将即将需要的KV块提前预加载到计算单元的内存中。多个推理任务可以共享CMX中的同一份KV缓存(如多轮对话历史),避免了重复计算和传输。
四、 带来的量化收益与根本性转变

根据文档中的官方数据,相比传统的CPU-centric存储方案,BlueField-4 STX架构实现了:

  • 吞吐量:Token吞吐量提升5倍
  • 能效:功耗效率提升4-5倍
  • 数据摄入:训练/推理数据预处理速度提升2倍
  • 延迟与成本:显著降低GPU尾延迟,提升GPU利用率,从而降低总体拥有成本。

根本性转变在于

  • 从瓶颈到资源:KV缓存从挤占GPU内存、导致性能下降的“瓶颈”,变成了在Pod内可池化、可共享的“加速资源”。
  • 支持无限上下文:理论上,通过CMX层与后端存储的协同,可以支持无限长的上下文推理,仅受限于存储总容量。
  • AI-Native存储:存储架构首次为了一种特定的AI数据类型(KV缓存)进行端到端的优化,从硬件、协议到调度,实现了真正的“AI原生”。
五、 生态定位与启示

BlueField-4 STX是NVIDIA Vera Rubin AI工厂平台的核心存储组件。它与Rubin GPU、Vera CPU、Groq 3 LPU、Spectrum-X网络共同构成了一个从计算、互联到存储的全栈协同设计闭环。

对行业的启示

  1. 系统协同:AI基础设施的竞争已从单一算力芯片,转向计算、内存、存储、网络的全栈协同优化能力
  2. 专用化:针对AI负载中涌现出的关键数据类型(如KV缓存)进行硬件和架构层面的专用优化,将成为释放性能潜力的关键。
  3. 软件定义硬件:DOCA、Dynamo等软件栈的价值凸显,它们是将强大硬件能力转化为简易API和实际性能的关键,构成了更深的生态护城河。

总结:BlueField-4 STX存储架构代表了AI数据中心基础设施演进的一个重要方向:通过引入专用的、池化的上下文内存层,并辅以硬件加速和智能调度,从根本上解决了长上下文AI推理的“记忆墙”问题,为下一代Agentic AI应用提供了必需的高性能、高能效“记忆系统”。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐