黄仁勋，为什么非做 CPU 不可？

weixin_52653439

311人浏览 · 2026-06-06 15:59:01

weixin_52653439 · 2026-06-06 15:59:01 发布

作者 | 常棣

编辑 | 葛覃

英伟达做 CPU 这件事，已经酝酿了二十年，只是到现在才摆在台面上来。

6月1日，GTC Taipei 2026主题演讲现场。英伟达创始人兼CEO黄仁勋用一句"很高兴回家"开场，随后抛出了今年全球AI产业最重要的风向标之一。

Vera Rubin架构全面量产，专为Agentic AI（代理式人工智能）设计的Vera CPU正式交付。OpenAI、Anthropic、SpaceX成为首批客户，甲骨文承诺部署数十万颗。

黄仁勋终于出手，要把英特尔和AMD守了几十年的CPU江山，变成自己的下一个千亿美元生意。

一颗CPU，两条路线

在英伟达最新财报电话会议上，黄仁勋说了一句话，值得反复咀嚼：“AI智能体已经到来。世界正在为Agentic AI和物理AI重建计算。英伟达处于这些转变的中心。”

英伟达并非CPU领域的新人。2011年，英伟达推出Denver核心，这是公司第一颗自研ARM架构CPU核，搭载于Tegra K1移动处理器，那一代产品性能受限于移动端功耗预算，始终是小打小闹。

2019年，英伟达收购Mellanox，拿下了数据中心网络的重要版图；2020年，宣布以400亿美元收购ARM，试图直接控制CPU生态系的上游，最终因监管阻力被迫放弃。

2022年，英伟达推出Grace CPU，以ARM架构切入HPC（高性能计算）服务器，但彼时Grace更多是作为H100 GPU的”陪衬”出现，以GH200 Superchip的形式捆绑销售，几乎从未以独立产品参与市场竞争。

Grace CPU迄今出货量接近250万片，这个数字在服务器CPU市场里只是零头，但为Vera的全面进攻打下了工程积累和生态基础。

如果说英伟达在CPU上酝酿了二十年，那Vera是第一次真正摆上台面来打的一仗。时机的选择，精准卡在AI范式发生结构性转变的节点上。

理解Vera CPU，必须先理解AI的计算范式正在发生什么转变。

过去几年，AI算力的核心矛盾是训练，堆更多GPU、买更多服务器、烧更多电，把大模型参数规模推上去。英伟达在这场军备竞赛里吃到了绝大多数红利。2026财年第一季度，英伟达营收高达816亿美元，同比增长85%，数据中心业务一项便达750亿美元，同比暴增92%。

潮水开始转向，AI推理替代训练，成为算力消耗的新主战场。更关键的是，“智能体”模式正在成为AI应用的主流形态，AI主动调用工具、执行代码、查询数据库、与外部系统交互，这个范式的变化，深刻改变了底层硬件的需求结构。

行业也开始发现，一个长期被忽视的瓶颈出现了。

黄仁勋在GTC台北演讲中直言，“过去所有的CPU都是为人类构建的，人类习惯于秒级的响应；但智能体是不耐烦的，它们生活在纳秒的世界里。” 智能体每完成一项任务，都涉及大量CPU密集型操作，Python运行时、沙盒代码执行、工具调用编排、数据库查询。这些环节，传统x86 CPU是真正的瓶颈所在，GPU再快，等着CPU喂数据，整条流水线就会卡死。

这里有一个英伟达自身的商业动机，不能回避。在AI工厂的经济账里，GPU的利用率是核心指标。一块H100或B200闲置一毫秒，都是真金白银的浪费，而CPU的处理瓶颈，恰恰是GPU利用率无法拉满的隐性原因之一。

英伟达做Vera，某种程度上是在替自己的GPU生意扫清障碍，只要CPU足够快，客户就能从同样的GPU投入里榨出更多token，英伟达整套系统的性价比就在账面上更好看。

正如业内分析所指出的，极低延迟换来的极高吞吐量，直接拉高了单瓦特能够生成的token数量，为云厂商和AI企业构建出更低的token生产成本护城河。

这是英伟达切入CPU市场最深层的商业逻辑，不只是为了CPU本身的市场份额，而是让整套英伟达AI基础设施在竞争中更难被替代。

正如独立分析机构Futurum Research所指出的，Vera并非设计为一款全能服务器处理器，去全面对抗英特尔和AMD，两者分别占有数据中心CPU市场约45.3%和29.7%的份额。Vera的目标更为精准，在架构转型窗口期建立软件依赖，使其CPU成为英伟达更广泛AI工厂愿景中不可或缺的组成部分。

分析师预测，随着智能体AI在未来承担推理计算中约30%的份额，服务器CPU的整体市场规模到2030年有望达到2110亿美元，需求单位数从2026年的370万台增长至2028年的1630万台。

这个窗口一旦错过，等英特尔和AMD重新完成针对智能体的架构改造，再想打入已是难上加难。

撬动英伟达帝国的又一个支点

黄仁勋在GTC台北大会上宣布，Vera已全面投产，首批系统已向Anthropic、OpenAI、SpaceXAI交付，字节跳动、CoreWeave、Oracle云基础设施等超大规模云厂商均已列入采购计划；戴尔、HPE、联想、超微等全球主要服务器制造商将提供基于Vera的独立CPU服务器配置。

从技术规格看，Vera的核心差异化在于”为智能体任务专门优化”。Vera搭载88颗Olympus自研CPU核心、空间多线程技术（Spatial Multithreading）以及LPDDR5X内存子系统，可提供高达1.2TB/s的带宽。这一带宽数字是核心武器——智能体并发调用大量工具时，内存带宽直接决定了延迟高低。

在计算性能层面，Vera的空间多线程功能使每个线程能够拥有单核的完整吞吐量，等效处理能力相当于176个核心。而在真实业务场景的基准测试中，Vera CPU凭借消除了Chiplet损耗的单体网格互联，在SQL数据库处理上提速3倍，在纽约证券交易所的实时流处理任务中更是达到6倍的性能提升。

NYSE集团总裁Lynn Martin透露，纽交所每天处理超过1.1万亿条消息，将通过英伟达Vera CPU与Redpanda、HPE合作，在扩容的同时进一步优化延迟。金融市场基础设施作为Vera的旗舰场景，是经过精心选择的，高并发、低延迟、实时性要求极高，这些需求与智能体AI的运行特征高度吻合，也是x86传统架构力不从心的地方。

从架构定位看，Vera并非孤立产品，而是英伟达”AI工厂”战略的一个关键齿轮。Vera通过第二代NVLink-C2C互连技术与Rubin GPU耦合，CPU与GPU之间提供高达1.8TB/s的相干带宽，同时在机架级别扩展了英伟达的机密计算能力。

换言之，在英伟达设计的系统里，Vera不是外采零件，与GPU之间的互连带宽，是任何第三方CPU都无法匹配的结构性优势。

在竞争格局上，老对手的反应值得关注。AMD下一代EPYC Venice基于Zen 6架构，已进入量产爬坡，目标定于2026年下半年上市；英特尔则正准备Diamond Rapids平台作为应对方案。更值得注意的是一个新入场者，Arm于3月发布AGI CPU，这是该公司三十五年历史上首次自行出货生产芯片，搭载136颗核心，Meta是主要联合开发伙伴和首批客户，OpenAI、Cloudflare等亦在首批合作方名单之列。

服务器CPU市场的争夺战，已是二十年来最激烈的一次。

商业数字方面，黄仁勋此前表示，英伟达今年的CPU营收可见度已接近200亿美元，目标成为全球领先的CPU供应商。分析机构摩根士丹利的估算显示，英伟达向超大规模云厂商的Vera CPU定价约为每颗5000美元；若以200亿美元营收目标反推，意味着约400万颗的年出货量，而分析师认为这一目标完全可以实现。

一次战略跳跃，和尚待解答的几个问号

英伟达过去卖的是GPU，是算力本身。而Vera CPU的出现，预示着英伟达在向一个更深的位置渗透——控制整套AI工厂的算力架构。

CPU是AI工厂里离编排层最近的硬件，它处理工具调用、管理并发环境、协调加速器。谁控制了CPU，谁就更接近整个AI系统的核心。

黄仁勋直接宣告，“英伟达已经成为一家基础设施公司，不只是GPU公司，不只是系统公司，而是帮助你产生最大营收、最大利润的基础设施公司。”

从更宏观的视角看，这2000亿美元的CPU市场机遇，是叠加在英伟达已有的Blackwell和Rubin平台收入之上的，而非替代。黄仁勋声称在2025至2027年之间对后者拥有超过1万亿美元的营收能见度。这种量级的叠加，意味着英伟达的生意正在以几乎令人窒息的速度扩大边界。

但冷静来看，几个问号同样不能忽视。

200亿美元的数字，到底有多少是真正独立的CPU生意？

英伟达事后澄清，这200亿美元CPU营收包含了Grace和Vera处理器在Superchip组合、NVL72系统中的捆绑销售，以及独立CPU机架的销售。

也就是说，相当部分的CPU收入仍然是GPU系统的附属销售。真正意义上脱离GPU捆绑、以CPU单独竞争的生意规模，目前尚无清晰的官方口径。

对超大云厂商自研芯片的压制，到底有多大把握？

英伟达自己在10-Q监管文件中已经承认，其客户正在开发自己的ASIC和其他定制产品，包括专为特定工作负载优化的设计，这些设计可能不需要英伟达数据中心系统所提供的全部功能。

当这些超大规模客户既是买家又是潜在竞争对手，Vera的客户名单里那些亮眼的大名，未来究竟能转化多少稳定订单，存在变数。

此外，是性能基准的可信度。

英伟达早期对Vera的Phoronix基准测试设置了限制，每瓦性能数据并未包含在首轮测试中，因为英伟达不允许对预量产硬件进行这一项测试，而每瓦算力恰恰是数据中心运营商最关心的指标之一——能效比，决定了长期总拥有成本。

尽管如此，有一点几乎是确定的，英伟达进入CPU市场，对英特尔和AMD而言，不只是又多了一个竞争者那么简单，这场竞争的根本，已经从”谁的芯片最快”转移到”谁控制了绑定整个数据中心的操作软件”。

在这场软件定义算力的游戏里，英伟达CUDA生态系的护城河，从GPU延伸到了CPU，这才是最令对手难以招架的地方。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

YOLOv11【第五章：数据工程与增强篇·第7节】自动标注（Auto-Labeling）：利用YOLOv11预训练模型辅助半监督标注！

AtomGit开源社区

PPOCRLabel工具免安装环境免下模型下载后解压即用windows版

本工具是一款免安装、免配置的PPOCRLabel标注工具，专为Windows系统打包。无需安装Python环境无需手动下载PaddleOCR模型无需NVIDIA显卡（CPU版本）解压后双击即可使用内置PaddleOCR 3.0.2 + PaddlePaddle 3.0.0PPOCRLabel是PaddleOCR官方推出的半自动图形标注工具，内置OCR模型可以自动检测和识别图片中的文字，你只需要检查