从2012年一场改变世界的学术竞赛,到2026年万亿美元的市场角逐,AI芯片的故事远比想象中精彩。今天,我们从头讲起。

写在前面

AI大模型最近火得不行,聊天、画图、写代码,样样精通。但很多人会问一个朴素的问题:这些AI到底跑在什么硬件上? 那些动辄千亿参数的模型,靠什么“脑力”运转?

答案就在指甲盖大小的硅片上——AI芯片

这篇文章,我会用最通俗的语言,带你搞懂AI芯片的前世今生:GPU凭什么从“游戏显卡”变成“AI心脏”?NPU又是什么新鲜事物?英伟达真的无人能敌吗?以及,未来的AI芯片会走向何方?

读完这篇,你就有了在饭桌上聊AI硬件的资本。

一、一张图看懂AI芯片家族

在深入技术细节之前,先上一张“家族关系图谱”,让你对各类型AI芯片的定位一目了然:

芯片类型 核心特点 在AI中的角色 典型代表
CPU 串行计算,擅长复杂逻辑 总指挥,调度协调 Intel Core、AMD EPYC
GPU 大规模并行,数千核心 主力军,训练+推理 英伟达B200/H100、AMD MI450
NPU 神经网络专用,极致能效 精兵,推理加速 华为昇腾、高通Hexagon
TPU 谷歌自研ASIC,矩阵计算 特种部队,推理优化 Google TPU v5/v6
FPGA 硬件可重构,灵活适配 快速部署,原型验证 赛灵思、Intel FPGA

用更形象的话说——CPU是全能指挥官,什么都能做但效率一般;GPU是千人工兵营,拆成小块的任务大家一起来;NPU/TPU是特种兵,只做AI这件事,但做得极致。

接下来,我们逐个拆解。

二、从GPU说起:一个“偏科生”的逆袭

2.1 GPU的本职:打游戏的

GPU,全称Graphics Processing Unit(图形处理单元)。它最初的设计目的很单纯——渲染3D游戏画面

游戏画面的每一帧,都需要对海量像素进行重复的数学计算。CPU虽然聪明,但它只有几个核心,一次只能处理几件事。怎么办?工程师想了一个办法:让几百甚至几千个“笨”核心一起干活,每人负责一小块像素,齐头并进。这就是GPU的并行计算哲学。

英伟达(NVIDIA)和AMD是GPU领域的两大巨头。几十年来,它们的主要客户是游戏玩家和专业设计师。

2.2 命运的转折:2012年的ImageNet

2012年是一个分水岭。

这一年,多伦多大学的Alex Krizhevsky参加ImageNet图像识别竞赛时,做了一个“叛逆”的决定:不用CPU,改用GPU。他只用了4颗英伟达GeForce GTX580显卡,而竞争对手谷歌动用了16000颗CPU。结果,Alex的方案不仅赢了,而且遥遥领先。

这一役,震撼了整个学术界。人们突然意识到:那些让GPU渲染游戏画面的数学运算——矩阵乘法、向量计算——恰好也是深度学习神经网络的核心运算。 GPU这个“偏科生”,在AI面前成了天选之子。

2.3 GPU为什么适合AI?

简单说,神经网络的核心操作是矩阵乘加(D=A×B+C)。训练一个千亿参数的大模型,本质上就是在反复做海量的矩阵乘法。

GPU有三个天然优势:

  1. 高度并行性:拥有大量并行计算单元,数千个核心同时开工。
  2. 高内存带宽:集成HBM高带宽内存,数据吞吐速度极快,适合数据密集型计算。
  3. 多级缓存:全局内存、共享内存、寄存器分层设计,大幅降低数据访问延迟。

再加上英伟达在2017年推出的Tensor Core(张量核心)——一种专门为矩阵乘加优化的硬件单元——GPU在AI计算上的优势被进一步放大。

此后,英伟达的GPU从Volta架构迭代到Ampere,再到Hopper、Blackwell,每一代都在为AI优化。英伟达也因此成为AI时代的最大赢家:年收入从2022年的270亿美元飙升至2025年的2160亿美元,增幅近8倍。

2.4 GPU的软肋

不过,GPU也有天生的不足:

  • 功耗高:高性能GPU的功耗动辄数百瓦,一块H100就超过350W,数据中心级别的B200更高。
  • 成本贵:一颗高端AI GPU售价数万美元,不是谁都用得起的。
  • 通用有余,专用不足:GPU毕竟不是为AI量身定制的,在执行某些特定神经网络运算时,效率并非最优。

于是,NPU登场了。

三、NPU:为AI而生的“特种兵”

3.1 NPU是什么?

NPU,全称Neural Processing Unit(神经网络处理单元),是一种专门为AI神经网络计算设计的处理器

如果说GPU是“会用AI的多面手”,那NPU就是“只会AI的专家”。

NPU的架构与GPU截然不同。GPU沿用传统的SIMT(单指令多线程)架构,而NPU采用数据流驱动架构,通过脉动阵列(Systolic Array)实现权重与激活值的流水线计算。

听起来很抽象?用个比喻:GPU像是一群工人每人拿着一份图纸各自加工;NPU则像一条流水线,数据流过每一个计算单元,每个单元只做一个步骤。数据走到哪,算到哪,无需反复读写内存——这使得NPU在运算性能和功耗上都有巨大优势。

3.2 NPU vs GPU:核心差异

维度 GPU NPU
架构理念 通用并行计算 神经网络专用
计算模式 指令驱动(SIMT) 数据流驱动
训练能力 极强 基本不行
推理效率 非常好
能效比 中等 高(GPU的3-5倍)
灵活性 高,支持各种计算任务 低,只支持神经网络

简单来说:训练大模型,用GPU;部署推理,用NPU。两者各有所长,并非谁替代谁的关系。

3.3 NPU的代表玩家

  • 华为昇腾(Ascend) :基于自研达芬奇架构的NPU,从2018年的昇腾310起步,历经910B、910C,到2026年发布昇腾950PR,算力达1P FLOPS,采用自研HBM,单卡性能是英伟达H20的2.87倍。华为还规划了至2028年的完整迭代路线图,包括950DT、960、970等后续芯片。
  • 高通Hexagon NPU:集成在骁龙芯片中,专注移动端AI推理,能效比高达10 TOPS/W。
  • 英特尔NPU:集成在酷睿Ultra芯片中,让AI PC能在本地高效运行AI任务。

NPU的崛起,标志着AI芯片从“能用”走向“好用”——不仅追求绝对算力,更追求能效比

四、ASIC与TPU:AI芯片的终极形态?

4.1 ASIC:定制化到极致

ASIC,全称Application-Specific Integrated Circuit(专用集成电路),是为特定任务量身定制的芯片。它不像GPU那样通用,也不像FPGA那样可重构,而是一次性固化设计,只为高效处理某一类算法。

ASIC的优势在于极致的性能和能效比——因为电路是专门设计的,没有多余的晶体管和走线浪费。但它也有致命缺陷:开发周期长、成本高、一旦定型无法修改。一旦算法发生变化,ASIC就可能“过时”。

在AI领域,ASIC主要用于推理场景。比如一个训练好的模型要上线服务,用ASIC来跑,又快又省电。

4.2 TPU:Google的“秘密武器”

TPU,全称Tensor Processing Unit(张量处理单元),是Google自研的AI专用ASIC芯片。它的设计哲学很明确:“只解决一小部分问题,但这些问题需要的计算量巨大”

2015年,Google发现如果所有人都用语音搜索,公司的数据中心将需要翻倍才能处理。于是,TPU应运而生。经过多代迭代,TPU已经成为Google AI基础设施的核心。

2026年,Google做出了一个重大战略调整:开始向外部客户销售TPU。据摩根大通报告,Google计划在2027年部署600-700万颗TPU,大部分将供给Anthropic、OpenAI、Meta以及苹果等外部客户。这意味着TPU正式从“自用”走向“商用”,与英伟达正面竞争。

4.3 更多“非主流”玩家

除了Google,还有一批AI芯片公司走的是更激进的技术路线:

  • Cerebras:晶圆级引擎(Wafer-Scale Engine),直接把一整片晶圆做成一颗芯片,并行度惊人。2026年1月,OpenAI与Cerebras签下超100亿美元的订单。
  • Groq:采用确定性流水线架构,延迟极低且稳定。2025年底,英伟达以约200亿美元引入Groq核心团队与技术,将其LPU(语言处理单元)整合进自家产品线。
  • Graphcore:IPU(智能处理单元),片上SRAM带宽高达45TB/s,在小批次推理延迟上优势明显。

这些“非主流”架构的共同特点是:放弃GPU的通用性,换取特定场景下的极致效率

五、竞争格局:群雄逐鹿的时代

AI芯片这个赛道,几年前还是“一个武林,只有英伟达”。但进入2026年,格局正在剧变。

5.1 英伟达:王者,但不再唯一

英伟达目前仍是AI芯片的绝对王者。其Blackwell系列GPU(GB200/B200/GB300)在2026年将占其高端GPU出货量的71%。新一代Rubin架构也已在路上,采用台积电3nm工艺和HBM4内存。

但压力也在累积。集邦科技数据显示,英伟达的市占率已从约70%下探至近64%,创近四年新低。反抗军正从四面八方涌现。

5.2 AMD:紧追不舍的挑战者

AMD近年积极切入AI数据中心市场,已拿下OpenAI与Meta等大客户。2026年2月,AMD宣布与Meta扩大战略合作,部署6GW规模的AI算力,首批产品将采用基于MI450架构的定制Instinct GPU。

MI400系列预计于2026年推出,采用CDNA 5架构,最高可达40 PFLOPS算力。不过AMD仍需时间突破软件生态门槛——英伟达的CUDA生态仍是难以撼动的护城河。

5.3 华为与国产力量:崛起中的新势力

在中国市场,格局变化尤为剧烈。据Bernstein估算,2025年英伟达和华为在中国AI芯片市场各占约40%,而英伟达的份额可能在2026年降至约8%。IDC数据也显示,2025年中国AI加速器服务器市场已有41%被中国芯片厂商占据。

除了华为,寒武纪、地平线、天数智芯、百度昆仑芯、阿里平头哥等中国公司也在积极出货AI芯片。截至2026年2月,阿里平头哥自研AI芯片真武810E已累计交付47万颗,市场份额达7%。这些公司的策略是:不正面硬刚英伟达的训练芯片,而是聚焦推理市场,用更大的芯片集群和网络技术来弥补单卡性能差距

5.4 云厂商自研:最大变量

更值得关注的是,亚马逊(Trainium/Inferentia)、微软(Maia)、Meta(MTIA)、字节跳动等云巨头也在自研AI芯片。它们的逻辑很简单:AI训练和推理的成本太高了,与其给英伟达交“税”,不如自己造

大型AI业者正从“单一GPU依赖”转向“多供应商+自研芯片”并行模式。这种趋势一旦形成,对英伟达的长远影响将远超AMD或Google的直接竞争。

六、未来趋势:AI芯片将走向何方?

6.1 从训练到推理:重心转移

AI芯片行业正在经历一个结构性转变:重心从训练转向推理

训练就像“上学”,需要极高的算力;推理就像“工作”,更看重成本和效率。随着大模型在各行各业落地,推理的需求将远超训练。这对芯片提出了新的要求:低延迟、高吞吐、低功耗

6.2 Physical AI:芯片走向现实世界

2026年被业界视为“Physical AI元年”。AI不再只是数据中心里的算力引擎,而是正跨越云端,演进为赋予机器感知、推理与行动力的智慧神经中枢。

这意味着AI芯片将大规模进入自动驾驶、机器人、智能工厂等物理场景。芯片需要同时处理感知(视觉、雷达、激光)、决策(路径规划、行为预测)和控制(实时执行)等多种任务,对芯片的异构计算能力和实时性提出了更高要求。

6.3 架构创新的三大方向

  1. 异构内存系统:通过CXL等技术扩展内存容量和带宽,支持更大规模的模型。
  2. 存内计算:打破冯·诺依曼架构的“内存墙”,让计算在存储单元中直接完成。
  3. 晶圆级与3D集成:像Cerebras那样用整片晶圆做芯片,或通过3D堆叠技术将计算、存储、互联集成在一个封装内。

6.4 软件生态:看不见的战场

最后必须强调:AI芯片的竞争,不仅是硬件的竞争,更是软件生态的竞争

英伟达最大的护城河不是GPU本身,而是CUDA——一个让数百万开发者熟悉的软件平台。任何想要挑战英伟达的芯片公司,都必须先回答一个问题:开发者怎么用你的芯片?

华为通过开源“灵衢”互联协议、构建CANN软件栈来打造生态;AMD依靠开源的ROCm平台追赶;Google则用JAX和TensorFlow为自己的TPU保驾护航。这场软硬一体的战争,才刚刚开始。

结语

从2012年4块显卡震撼学术界,到2026年万亿美元的市场角逐,AI芯片的故事是人类科技史上最精彩的篇章之一。

未来十年,我们将见证更多创新:也许不久的将来,你手机里的NPU就能离线运行一个百亿参数的模型;也许你的汽车里就藏着一颗比今天最强GPU还厉害的AI芯片;也许AI芯片的形态会彻底跳出今天的认知边界。

但有一点是确定的:算力,将是这个时代最核心的生产力。谁掌握了芯片,谁就掌握了AI时代的话语权。


本文旨在做技术科普,所引用数据均来自公开资料和市场研究报告。如果你对AI芯片有更多好奇,欢迎在评论区留言交流!

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐