一、Groq 3 LPX架构概览

Groq 3 LPX机架是NVIDIA为Agentic AI量身打造的低延迟推理解决方案。每个机架包含256颗Groq 3 LPU,拥有128GB片上SRAM,单机架聚合带宽高达640 TB/s。但真正让这个机架发挥威力的,是深度集成在每个计算托盘中的BlueField-4 DPU。

关键配置

  • 每1U计算托盘:8颗Groq 3 LPU + BlueField-4 DPU + 主机CPU + 互联扩展逻辑
  • 互联方式:C2C(chip-to-chip)链路 + Ethernet
  • 液冷设计:无缆MGX ETL架构

二、BlueField-4的三大核心角色

1. 网络大脑:卸载与Fabric管理

BlueField-4在Groq 3 LPX中承担了“全卸载+Fabric控制”的关键角色。基于DOCA框架和NIXL异步传输库,它实现了:

网络卸载

  • 提供高基数Ethernet端口(支持XDR 800G拆分)
  • 实现流量喷洒、多路径容错与拥塞控制
  • 通过硬件RDMA+可编程传输层,确保尾延迟稳定在微秒级

Fabric管理

  • 与Vera Rubin平台的Spectrum-6 CPO交换机+ConnectX-9 SuperNIC协同
  • 构成完整的scale-out Fabric架构
  • 支持从机架内到跨机架的无缝扩展

2. KV缓存管家:数据搬运与协调

Agentic AI的百万token上下文会产生海量KV缓存块,传统架构难以高效管理。BlueField-4通过以下机制解决这一难题:

硬件加速的数据搬运

  • 内置4万+高性能Copy Engines
  • 配合NIXL库实现KV缓存的异步驱逐与预填充
  • 将KV块从LPU片上SRAM卸载到CXL/Ethernet共享内存池

零拷贝直达

  • 数据可直接从共享内存池到达目标LPU或Rubin GPU
  • 避免传统架构中的多次内存拷贝开销
  • 实现预填充阶段的高效数据准备

3. 上下文内存扩展管家

BlueField-4与Dynamo 1.0的KV块管理深度集成,实现了:

分离式推理架构

  • 预填充在GPU,解码在LPU
  • 单pod级CMX可扩展TB级共享context memory

性能突破

  • 相比传统HBM方案,Tokens per second(TPS)提升5倍
  • 功耗效率提升5倍
  • Time to First Token(TTFT)降低20倍以上

三、技术实现细节

物理集成架构

BlueField-4 DPU并非独立存在,而是直接集成在每个1U Compute Tray中:

  1. 布局设计:BlueField-4 DPU与Groq LPU、DRAM、主机处理器并列布局

  2. 高速互联:通过NVIDIA C2C高速链路(带宽高达数TB/s)实现托盘内零拷贝数据搬运
  3. 跨机架互联:通过Spectrum-X Ethernet Fabric完成跨机架低抖动互联

软件栈支持

BlueField-4基于完整的软件生态实现硬件加速:

  • DOCA框架:提供基础设施编程接口
  • NIXL异步传输库:优化数据传输路径
  • Dynamo 1.0 OS:实现硬件加速的调度与管理

四、实际性能收益

通过BlueField-4的深度卸载,Groq 3 LPX实现了显著的性能提升:

1. 推理吞吐量飞跃

  • 整体推理throughput较同功耗传统系统提升35倍
  • Token成本进一步下降

2. 异构AI流水线优化

  • Rubin GPU负责prefill + attention
  • Groq 3 LPX(+ BlueField-4)负责FFN/MoE decode
  • Dynamo调度器无缝衔接,支持多智能体持续推理

3. 扩展能力突破

  • 单LPX机架通过BlueField-4 + Spectrum-6 CPO,可扩展至50万+加速器级别
  • 仅需2层Fabric网络即可实现“AI工厂”互联

五、安全与运维加速

BlueField-4还带来了企业级的安全与运维能力:

安全增强

  • DOCA零信任安全架构
  • 容器级别的硬件隔离
  • 实时遥测与威胁检测

运维简化

  • 负载均衡、故障切换、Dynamo调度全硬件化
  • CPU占用率接近0
  • 大幅降低运维复杂度

六、行业意义与展望

BlueField-4在Groq 3 LPX中的成功集成,标志着NVIDIA在2026年的核心战略:让DPU全面下沉到Fabric层,使每种加速器专注最擅长的任务

技术范式转变

  • GPU/LPU/CPU专注优势计算
  • DPU统一管控网络、存储及上下文内存
  • 实现真正的高效协同

生态整合

  • Groq 3 LPU凭借高带宽SRAM与BF4的深度集成
  • 真正融入Vera Rubin生态
  • 成为Agentic AI时代的低延迟“decode特种部队”

总结

BlueField-4 DPU在Groq 3 LPX中扮演了多重关键角色:它既是“网络大脑”,管理着从芯片到集群的复杂互联;又是“KV缓存管家”,高效处理Agentic AI的海量上下文数据;还是“安全与运维加速器”,确保整个系统稳定高效运行。

没有BlueField-4,Groq LPU只能做小规模确定性推理;有了它,Groq 3才能真正融入Vera Rubin生态,成为Agentic AI时代不可或缺的低延迟推理引擎。这不仅是硬件的胜利,更是软硬件协同设计哲学的完美体现。

随着AI向Agentic时代迈进,像BlueField-4这样的智能数据处理单元,正从可选组件演变为AI基础设施的核心支柱。未来,智算系统的竞争将不仅是算力的竞争,更是数据流动效率的竞争。. 

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐