NVIDIA GTC 2026核心看点:Vera Rubin架构引领万亿参数推理革命,全栈AI基建重塑行业格局
核心看点速览
- 推出Vera Rubin全栈AI平台,整合Vera CPU、Rubin GPU、Groq 3 LPU等七款协同芯片,实现推理能效10倍提升、单令牌成本降至十分之一;
- 定义第四类AI扩展定律——智能体扩展(agentic scaling),针对性解决AI智能体间协作带来的低延迟、大上下文推理需求;
- 完成Groq技术整合,推出LPX机架加速万亿参数模型解码,实现每兆瓦推理吞吐量35倍提升;
- 发布首款专为强化学习设计的Vera CPU,破解AI训练中CPU环境算力瓶颈;
- 推出BlueField-4 STX存储架构与CMX上下文内存平台,解决大模型KV缓存扩展难题;
- 开源Dynamo 1.0推理操作系统与Agent Toolkit,降低大规模AI智能体开发门槛。
正文:
NVIDIA GTC 2026于圣何塞盛大举办,吸引了来自190多个国家的3万余名参与者,CEO黄仁勋在主题演讲中揭晓了公司新一代AI基础设施平台的全貌,涵盖芯片、系统、软件及生态合作的全方位升级。这是自Blackwell架构推出以来最全面的平台革新,核心围绕Vera Rubin架构的量产落地与Groq 3 LPU技术的深度整合,标志着AI行业正式迈入智能体时代(agentic AI),而Vera Rubin平台正成为这场基础设施建设浪潮的核心支柱。正如黄仁勋所言,智能体AI的拐点已然到来,NVIDIA正推动史上规模最宏大的算力基建部署。
本次大会的核心主题是第四类AI扩展定律——智能体扩展,即AI系统不仅能与人类交互,还能实现AI智能体间的协同,这一趋势催生了对超大规模低延迟、大上下文推理的指数级需求,而Vera Rubin平台正是为承接这一全新场景而生。该平台整合了七款协同设计的芯片,构建于五大全新机架式系统之上,专为AI工厂量身打造,并获得了前沿AI实验室的高度认可。Anthropic联合创始人兼CEO Dario Amodei与OpenAI CEO Sam Altman均对其给予高度评价,称其为复杂推理任务与大规模模型部署提供了关键算力支撑。
基于2026年CES首次亮相的Vera Rubin NVL72架构,GTC 2026将其扩展为完整的POD级AI工厂生态,标志着行业从离散芯片和独立服务器,向全集成机架式系统、POD级部署和自主AI工厂的转型。Vera Rubin平台整合了NVIDIA Vera CPU、Rubin GPU、NVLink 6交换机、ConnectX-9 SuperNIC、BlueField-4 DPU、Spectrum-6以太网交换机,以及新集成的NVIDIA Groq 3 LPU,所有组件协同工作构成统一的AI超级计算机,在计算、网络和存储层面实现深度协同设计。
NVIDIA宣称,该平台在全场景AI工作负载中,每瓦推理吞吐量较Blackwell一代提升高达10倍,单令牌成本降至十分之一;对于大规模混合专家(MoE)模型训练,仅需四分之一的GPU数量即可达到同等性能。
生态落地方面,基于 Vera Rubin 的产品将于 2026 年下半年全面上市,云服务领域涵盖亚马逊 AWS、谷歌云、微软 Azure、甲骨文云等主流厂商,以及 CoreWeave、Crusoe、Lambda 等专业 AI 云服务商;硬件制造领域则有戴尔科技、HPE、联想、超微、华硕、富士康等全球头部厂商推出相关服务器产品,形成覆盖全产业链的生态支持网络。
随着Groq的收购整合,GTC 2026上正式揭晓其演进形态——Groq 3 LPX机架,原本聚焦上下文处理的设计升级为基于Groq芯片的全新解码加速架构。
单个LPX机架容纳256颗Groq 3 LPU,整机架提供约128GB聚合片上SRAM和640TB/s扩展带宽,与Rubin GPU形成互补:Rubin GPU主打大容量HBM4存储(288GB,22TB/s),LPU则以超高带宽(80TB/s per chip)实现超低延迟解码。
两者通过Spectrum X定制互连协同部署,针对万亿参数模型和百万令牌上下文优化,可实现每兆瓦推理吞吐量35倍提升。值得注意的是,该LPU无需修改CUDA,可作为现有CUDA栈的透明加速器,Groq核心团队与NVIDIA的深度协作确保了技术整合的平滑落地,初期将优先服务于模型开发者和专业服务提供商。
要理解NVIDIA打造专用CPU机架的核心逻辑,需聚焦现代AI开发中强化学习(RL)的训练后阶段需求。在智能体AI场景中,强化学习需要三大计算池协同:GPU训练池更新模型权重、推理加速器生成候选动作、CPU集群运行实际沙箱环境——智能体执行代码、调用工具、生成奖励信号等操作均依赖CPU算力,任何延迟都将导致GPU资源闲置。为此,NVIDIA推出全球首款专为智能体AI设计的Vera CPU,以及对应的机架式系统,单个机架包含256颗液冷Vera处理器,支持22500个并发CPU环境,提供400TB总内存和300TB/s聚合带宽。其采用88颗定制Olympus核心,兼容Armv9.2架构,LPDDR5X内存子系统实现1.2TB/s带宽,较通用CPU能效提升显著。
该产品已获得阿里巴巴、字节跳动、Meta、甲骨文云等企业客户的认可,戴尔科技、HPE、联想、超微等厂商均参与硬件制造,不仅解决了 AI 训练的 CPU 算力瓶颈,还缓解了大规模 AI 工厂的 CPU 供应链依赖问题。
针对大模型推理中的KV缓存扩展难题,NVIDIA在GTC 2026上揭晓了BlueField-4 STX参考架构,以及基于该架构的CMX上下文内存存储平台。KV缓存随序列长度和批处理规模增长,极易耗尽GPU HBM,而BlueField-4 STX通过高带宽共享存储层(介于GPU HBM与传统存储之间),专为KV缓存访问模式优化,结合Vera CPU、ConnectX-9 SuperNIC与Spectrum-X以太网,实现令牌生成速度5倍提升、能效4倍优化。同步推出的DOCA Memos框架进一步强化KV缓存处理能力,与开源Dynamo项目形成协同,构建POD级上下文存储解决方案。
除硬件架构外,NVIDIA还发布了Vera Rubin DSX AI工厂参考设计与Omniverse DSX蓝图正式版,通过整合计算、网络、存储、电源和冷却系统,最大化AI工厂的每瓦令牌效率。DSX软件栈包含Max-Q(动态电源分配)、Flex(电网柔性适配)、Exchange(跨系统信号集成)、Sim(数字孪生验证)四大组件库,可解锁100吉瓦闲置电网电力,缓解AI基建的能源瓶颈。Omniverse DSX蓝图则支持开发者构建物理精确的AI工厂数字孪生,在部署前优化性能,加速营收落地。
软件领域,NVIDIA重点发布了OpenCLAW编排框架与Agent Toolkit开源套件,前者专为长期运行、自我进化的CLAWs智能体设计,后者包含Nemotron开源模型、Nemo性能分析工具、NIM推理引擎、OpenShell安全运行时等核心组件,降低自主智能体的开发门槛。针对本地开发需求,推出DGX Spark(全天候智能体运行平台)与DGX Station(本地CLAW开发平台),后者支持前沿模型本地部署,无需云连接,将于2026年3月16日通过OEM合作伙伴接受订购。
此外,NVIDIA还将AI算力拓展至太空领域,发布Vera Rubin太空模块,推理性能较H100提升25倍,支持大模型在轨运行;IGX Thor与Jetson Orin分别适配轨道关键任务与紧凑航天器场景,地面端RTX PRO 6000 Blackwell Server Edition则将地理空间智能处理效率提升100倍。Axiom Space、Planet Labs、Kepler Communications等企业正基于这些平台开发下一代太空任务,涵盖轨道数据中心、自主太空操作等场景。
作为大会收官发布,Dynamo 1.0开源推理操作系统正式量产,定位为首个AI工厂分布式推理OS,通过智能路由、跨层数据移动、KV缓存优化等功能,使Blackwell GPU推理性能提升7倍,且无需修改现有框架即可集成。目前已适配LangChain、SGLang、vLLM等主流推理框架,AWS、Azure、谷歌云、阿里云等云服务商,以及字节跳动、美团、PayPal、Shopee等企业均已采用,全球开发者可免费获取。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)