GTC 2026拆解：BlueField-4 STX-为Agentic AI重构的AI-Native存储加速器

智算X互联

1868人浏览 · 2026-03-20 10:27:40

智算X互联 · 2026-03-20 10:27:40 发布

「智算X互联 AI-X OpenLab」专注智算互联产业和技术观察。最近几期里我们将从智算互联角度对NVIDIA GTC2 2026进行拆解。如感兴趣，请搜索关注「智算X互联」公众号。

BlueField-4 STX并非传统意义上的存储控制器或SSD扩展卡，而是NVIDIA面向“智能体AI”（Agentic AI）时代，为解决万亿参数模型长上下文推理的核心瓶颈——KV缓存（Key-Value Cache）的存储与管理——而设计的革命性架构。其核心目标是将KV缓存从消耗昂贵GPU内存（HBM）的“奢侈品”和性能瓶颈，转变为在整个AI计算集群（Pod）内可高效共享、按需供给的“标准资源”。

一、核心问题：传统存储架构无法承载AI推理的“记忆”

在Transformer模型推理（尤其是自回归生成）中，KV缓存用于存储历史Token的Key和Value向量，避免重复计算，是模型保持“上下文记忆”的关键。随着上下文长度从千级、万级迈向百万级Token，KV缓存的大小线性增长，带来两大挑战：

容量挑战：单次会话的KV缓存轻松超过单个GPU的HBM容量（数十GB），必须溢出到系统其他部分。
性能与效率挑战：传统数据中心存储层级（G1: HBM, G2: DRAM, G3: 本地SSD, G4: 共享存储）在容量和延迟/带宽之间存在巨大鸿沟。将活跃的KV缓存放在慢速的G4共享存储中，会导致GPU因等待数据而空转，吞吐量（Tokens Per Second）和能效急剧下降。

BlueField-4 STX的使命，就是在G3（本地高速存储）和G4（远程共享存储）之间，插入一个全新的、为KV缓存优化的G3.5存储层，即 “上下文内存层”。

二、架构核心：硬件、层级与软件的深度协同

BlueField-4 STX架构是一个从硬件、网络到软件栈的完整解决方案。

1. 硬件基石：存储优化的BlueField-4处理器

集成设计：单颗芯片集成了Vera CPU（88核自研Arm核心）和ConnectX-9 SuperNIC（1.6 Tbps网络接口）。
专用引擎：内置硬件KV I/O加速引擎，专门优化KV缓存数据的存取、搬运和协议处理。
高带宽互联：提供800Gb/s+的网络吞吐能力，为存储层与计算层之间的高速数据交换奠定物理基础。

2. 核心创新：Pod级上下文内存层

这是STX架构的灵魂。它在AI计算集群（一个Pod，通常包含多个机架的计算单元）级别，构建了一个共享的、可扩展的、低延迟的KV缓存存储池。

位置：位于GPU HBM（G1）和传统后端共享存储（G4）之间，作为G3.5层。
容量：可扩展至TB-PB级别，足以容纳海量的长上下文KV缓存。
访问方式：通过Spectrum-X以太网结构（基于RoCE RDMA）实现所有计算节点（GPU、LPU）对这个共享内存池的低抖动、高带宽直接访问。这确保了跨节点、跨会话的KV缓存可以高效复用。

3. 软件栈与调度：智能的数据生命周期管理
硬件能力需要通过软件调度才能发挥最大价值，STX与NVIDIA的AI软件栈深度集成：

Dynamo 1.0：作为推理流水线的统一编排器，其KV块管理器负责智能决策：哪些KV块是“热”的，应保留在GPU HBM或预加载到CMX层；哪些是“温”的，可放在CMX层；哪些是“冷”的，可沉降到后端G4存储。
NIXL传输库：负责在GPU HBM ↔ CMX层 ↔ 后端存储之间执行零拷贝的数据搬运。它与Dynamo协同，实现KV缓存的异步预加载（Prestaging）和淘汰（Eviction）。
DOCA框架：为存储场景提供微服务化、硬件加速的支撑，包括KV协议终止、元数据卸载、安全加密和遥测，将CPU占用率降至近乎为零。

三、工作模式：解耦的推理流水线

STX架构支持并优化了解耦推理模式：

Prefill阶段：由Rubin GPU负责，处理完整的提示词，生成初始的KV缓存。
Decode阶段：由Groq 3 LPU或GPU负责，进行自回归Token生成。
KV缓存管理：由BlueField-4 STX全权负责。它将Prefill阶段产生的大容量KV缓存持久化到CMX层；在Decode阶段，根据调度策略，将即将需要的KV块提前预加载到计算单元的内存中。多个推理任务可以共享CMX中的同一份KV缓存（如多轮对话历史），避免了重复计算和传输。

四、带来的量化收益与根本性转变

根据文档中的官方数据，相比传统的CPU-centric存储方案，BlueField-4 STX架构实现了：

吞吐量：Token吞吐量提升5倍。
能效：功耗效率提升4-5倍。
数据摄入：训练/推理数据预处理速度提升2倍。
延迟与成本：显著降低GPU尾延迟，提升GPU利用率，从而降低总体拥有成本。

根本性转变在于：

从瓶颈到资源：KV缓存从挤占GPU内存、导致性能下降的“瓶颈”，变成了在Pod内可池化、可共享的“加速资源”。
支持无限上下文：理论上，通过CMX层与后端存储的协同，可以支持无限长的上下文推理，仅受限于存储总容量。
AI-Native存储：存储架构首次为了一种特定的AI数据类型（KV缓存）进行端到端的优化，从硬件、协议到调度，实现了真正的“AI原生”。

五、生态定位与启示

BlueField-4 STX是NVIDIA Vera Rubin AI工厂平台的核心存储组件。它与Rubin GPU、Vera CPU、Groq 3 LPU、Spectrum-X网络共同构成了一个从计算、互联到存储的全栈协同设计闭环。

对行业的启示：

系统协同：AI基础设施的竞争已从单一算力芯片，转向计算、内存、存储、网络的全栈协同优化能力。
专用化：针对AI负载中涌现出的关键数据类型（如KV缓存）进行硬件和架构层面的专用优化，将成为释放性能潜力的关键。
软件定义硬件：DOCA、Dynamo等软件栈的价值凸显，它们是将强大硬件能力转化为简易API和实际性能的关键，构成了更深的生态护城河。

总结：BlueField-4 STX存储架构代表了AI数据中心基础设施演进的一个重要方向：通过引入专用的、池化的上下文内存层，并辅以硬件加速和智能调度，从根本上解决了长上下文AI推理的“记忆墙”问题，为下一代Agentic AI应用提供了必需的高性能、高能效“记忆系统”。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

鸿翼智能多模态数据管理平台，构建企业AI能力的数据基础设施

AtomGit开源社区

QCN9274 and MT7916: Two Leading Platforms Driving the WiFi 7 Revolution

AtomGit开源社区

时间戳是 int 还是 date ？数据表的字段类型，全部设计为 String，适应什么场景

数据库时间戳类型的选择取决于具体场景：DATE/DATETIME类型可读性强、函数支持完善，适合常规业务；INT类型（Unix时间戳）适合跨系统传输和分布式场景。数据表字段全设计为String类型仅适用于特定场景：日志采集、数据湖ODS层、EAV模型值字段、临时表等非结构化或动态数据场景，但会带来存储膨胀、查询性能差等问题。核心业务系统、高并发OLTP等场景应严格避免全String设计，需根据字段