智算X互联 AI-X OpenLab专注智算互联产业和技术观察。最近几期里我们将从智算互联角度对NVIDIA GTC2 2026进行拆解。如感兴趣,请搜索关注「智算X互联 」公众号。

2026年3月16日NVIDIA GTC keynote上,黄仁勋把BlueField-4定位为“AI工厂操作系统”的核心处理器,而支撑这一切的正是NVIDIA DOCA微服务框架(DOCA Microservices Framework)。DOCA不再只是“BlueField的SDK”,而是完整运行在DPU上的容器化微服务集合,直接把网络、存储、安全、编排全部下沉到硬件层,让GPU/LPU/CPU专注AI计算。

官方定位:DOCA是“CUDA for Infrastructure”——一套预构建、可组合、容器化微服务,在BlueField-4 + ConnectX-9上原生运行,为AI工厂提供高性能Fabric加速、零信任安全、数据搬运和编排。DOCA 3.x(2026最新版)已与NIXL库、Dynamo 1.0深度融合,尤其在Fabric加速上实现突破。

图片

DOCA微服务框架的核心架构

DOCA由SDK + Runtime两部分组成:

  • DOCA SDK

    提供统一API、库和工具,开发者可快速构建自定义服务。

  • DOCA Runtime

    默认运行在BlueField上,包含容器编排引擎(支持Kubernetes DPF Operator)、生命周期管理、零信任安全控制平面。

  • 微服务形态

    全部容器化(Docker/Kubernetes原生),可一键部署到数百上千台BlueField-4,支持多租户隔离。

在Vera Rubin平台中,DOCA微服务直接对接ConnectX-9 SuperNIC、Spectrum-6 CPO交换机和BlueField-4 STX存储,形成统一的Fabric控制平面

与智算互联最相关的核心微服务

DOCA在互联(Interconnection)层面的价值在于把传统网络栈全部硬件卸载 + 可编程化,实现“Fabric as a Service”。以下是2026最关键的Fabric相关组件:

  1. DOCA RDMA(Remote Direct Memory Access)
    • 支持RoCE v2 / InfiniBand / UEC标准,带宽直达800Gb/s(BlueField-4 + ConnectX-9)。

    • 内置NIXL异步传输库,实现KV cache的零拷贝预加载(prestaging)和异步淘汰(eviction)。

    • 在Groq 3 LPX和BlueField-4 STX中,DOCA RDMA负责跨tray/rack的百万token上下文共享,尾延迟稳定在微秒级,token throughput提升5x。

    • 可编程特性:开发者可自定义传输协议(而非黑盒),完美适配Agentic AI的多智能体数据同步。

  2. DOCA Ethernet + DOCA Flow
    • DOCA Ethernet提供高基数端口管理(32+端口high-radix),配合Spectrum-X Fabric实现流量喷洒(traffic spraying)和多路径容错。

    • DOCA Flow是可编程数据平面:硬件加速packet classification、action engine、QoS、拥塞控制。BlueField-4的64-128阶段可编程pipeline可实现线速800G处理,CPU占用率接近0。

    • 在Rubin NVL72 scale-out中,DOCA Flow负责East-West Fabric的负载均衡和故障切换,避免传统3-5层网络的跳数爆炸。

  3. DOCA Argus(实时威胁检测微服务)
    • Fabric安全核心:被动监控全Fabric流量,实现零信任East-West安全。

    • 与ConnectX-9控制平面集成,支持AI runtime实时威胁响应,符合BlueField Astra安全模型。

  4. DOCA Memos + Telemetry微服务(2026新增增强)
    • DOCA Memos专为存储Fabric优化:在BlueField-4 STX中加速KV协议终止、元数据卸载。

    • Telemetry服务提供实时Fabric遥测(延迟、丢包、功耗),Dynamo调度器据此动态调整互联路径。

  5. DPF(DOCA Platform Framework)Kubernetes Operator
    • 集群级微服务编排:自动部署、升级、监控全网BlueField-4,实现North-South + East-West统一Fabric管理。

DOCA在智算互联中的实际作用与量化收益

  • Fabric统一控制

    通过DOCA + Spectrum-X,2层以太网即可扩展50万+加速器,相比传统方案延迟降低66%、功耗降低40%。

  • KV cache Fabric加速

    在BlueField-4 STX + CMX层,DOCA RDMA + NIXL让长上下文推理TPS提升5倍,能效提升4-5倍。

  • Agentic AI友好

    多智能体间上下文共享零拷贝,TTFT(Time to First Token)降低20x,支持持续多轮推理。

  • 零信任Fabric

    DOCA Argus + Astra把安全下沉到DPU,East-West流量与North-South一致策略。

一句话总结:DOCA微服务框架把Fabric从“被动管道”变成了可编程、可观测、可安全隔离的AI工厂神经系统。它让ConnectX-9、Spectrum-6、BlueField-4 STX真正融为一体,实现“Fabric as a Service”。

智算X互联 AI-X OpenLab」观察

DOCA微服务框架在2026年的技术定位,已从辅助开发工具彻底演变为AI工厂的底层基础设施操作系统级组件。它通过极致的硬件卸载、可编程数据平面和容器化微服务编排,将网络Fabric、存储Fabric、安全Fabric和上下文内存Fabric统一抽象成“Fabric as a Service”。

从纯技术角度看,DOCA的核心价值在于实现了互联栈的完全下沉与解耦

  • 控制平面与数据平面的彻底分离

    DOCA Flow + DOCA Ethernet + NIXL将传统软件定义网络(SDN)的控制逻辑全部迁移到BlueField-4的可编程pipeline中,64-128阶段硬件流水线实现线速800G+处理,消除了CPU在东-西向Fabric中的干预。

  • 零拷贝与异步传输的极致优化

    NIXL + DOCA RDMA在百万token上下文场景下,将KV block的prestaging/eviction从同步阻塞转为异步零拷贝路径,尾延迟从毫秒级压缩到微秒级,上下文共享效率提升5倍以上。

  • Fabric级统一可观测性与动态重构

    Telemetry微服务 + DOCA Memos提供端到端Fabric遥测(包括per-flow延迟、拥塞标记、功耗分布),Dynamo调度器据此实时调整互联拓扑、路径优先级和QoS策略,实现自适应Fabric。

  • 零信任Fabric原生嵌入

    DOCA Argus + Astra模型在DPU层面强制执行East-West流量策略,与North-South一致,硬件加速的协议终止和威胁检测消除了传统防火墙在高带宽Fabric中的瓶颈。

  • 多加速器异构Fabric无缝桥接

    DOCA Runtime + DPF Operator统一管理Rubin GPU、Groq 3 LPU、Vera CPU间的互联语义,通过UEC/UALink标准桥接NVLink封闭路径与开放Ethernet路径,确保Agentic AI多步推理流水线的端到端低抖动。

总体而言,DOCA微服务框架标志着2026年智算互联从“带宽堆叠”向“可编程Fabric操作系统”转型的关键节点。它将ConnectX-9、Spectrum-6、BlueField-4 STX等硬件组件真正融为一个统一的、可观测、可动态重构的Fabric层,为下一代Agentic/Physical AI提供了技术上最完整的互联底座。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐