LPU：为 AI 推理而生的芯片革命

limanjihe

558人浏览 · 2026-03-30 16:23:34

limanjihe · 2026-03-30 16:23:34 发布

一、从一个问题出发

你有没有注意过，使用 ChatGPT 时，文字是一个字一个字"蹦出来"的，而不是一次性显示？这不是故意做的动画效果——而是 AI 真的在逐字生成，每输出一个词（token），都要完成一次完整的神经网络计算。这个过程，叫做大语言模型推理（LLM Inference）。

现在有一种专为这个过程设计的芯片，叫做LPU（Language Processing Unit，语言处理单元）。它由 AI 芯片公司Groq发明，能让 AI 说话的速度快到令人咋舌——运行 Llama 3 70B 这样的大模型时，输出速度可以超过280–300 个 token/秒，而同等配置的 NVIDIA H100 GPU 通常只能达到 60–100 个 token/秒。要理解 LPU 为什么这么快，我们需要从它的"对手"GPU 说起。

二、GPU 的问题：大炮打蚊子

GPU 最初是为游戏图形渲染设计的。渲染画面需要同时计算数百万个像素——这是一种天然的并行任务，GPU 的几千个核心同时开工，效率极高。

后来，深度学习研究者发现，神经网络的矩阵乘法运算跟图形渲染有相似之处，于是 GPU 被借来训练 AI 模型。训练阶段确实很适合 GPU——几千个样本同时处理，并行性强。但推理阶段完全是另一回事。

https://www.eet-china.com/mp/a480143.html

LLM 生成文字时，有一个根本约束：第 N 个 token 必须等第 N-1 个 token 生成后，才能开始计算。你不知道"苹果"后面是"很甜"还是"公司"，直到"苹果"这个词出现。这是一种天然的顺序依赖，GPU 的并行架构对此束手无策。更严重的问题是内存墙（Memory Wall）。

GPU 的计算核心（CUDA Core）速度很快，但模型的权重参数存放在外部高带宽内存（HBM）中。每次计算，数据都要从 HBM 搬运到计算核心，再搬回去。Groq 的片上 SRAM 内存带宽高达 80 TB/s，而 GPU 的外部 HBM 只有约 8 TB/s——光这一项差距，就给 LPU 带来了高达 10 倍的速度优势。

https://www.jaeaiot.com/news/detail/337.html

三、LPU 的核心设计：流水线装配工厂

下面这张图展示了 LPU 与 GPU 在推理时的根本架构差异：

1. 流水线传送带（Streaming Assembly Line）

LPU 最核心的定义特征是它的可编程流水线架构。LPU 内部有数据"传送带"，在芯片的各个 SIMD（单指令多数据）功能单元之间传输指令和数据。在流水线的每一步，功能单元从传送带获取指令，指令告诉它：从哪条传送带取输入数据、执行什么函数、把结果放到哪条传送带。整个过程完全由软件控制，硬件内部无需任何同步。

这就像一条汽车装配流水线——发动机工位、喷漆工位、检测工位各司其职，前一台车刚离开，下一台车立刻进入，永不停歇。

2. 确定性执行（Deterministic Execution）

普通 GPU 内部有大量"不确定性"机制：分支预测器、乱序执行缓冲区、动态调度器……这些组件让 GPU 在通用计算中灵活高效，但代价是延迟不可预测。

LPU 通过刻意回避传统的响应式硬件组件（分支预测器、仲裁器、乱序缓冲、缓存），并将所有执行控制权交给编译器，从而实现确定性执行，保证 LPU 程序的每一步都精确按时发生。这意味着：第 1 毫秒做什么、第 2 毫秒做什么，全都在芯片运行之前就由编译器安排好了。没有等待，没有浪费。

3. 片上 SRAM：把仓库搬进工厂

这是 LPU 速度最大的来源之一。LPU 将数百 MB 的 SRAM 作为主权重存储（而非缓存）直接集成在芯片上，从而削减延迟，让计算单元以全速获取权重。这与 GPU 依赖外部 HBM 内存的做法截然不同。一个类比：GPU 就像工人在工厂干活，但零件全放在两公里外的仓库，每次都要开车去取；LPU 则把所有零件放在工人手边，伸手就能拿到。

4. 软件优先（Software-First）

Groq 在设计第一代芯片时，先设计编译器架构，再触碰芯片设计。这与业界惯例相反——通常是先造硬件，再写软件适配。这使得 LPU 的硬件和软件深度协同，编译器能以纳秒级精度规划每一条指令的执行时序。

四、LPU 的核心单元：TSP

LPU 的基础计算单元叫做TSP（Tensor Streaming Processor，张量流处理器）。TSP 是 LPU 的基础单元，多个 TSP 以机架形式组合，多个机架再互联，形成能提供大规模吞吐量的分布式系统。TSP 系统同样围绕确定性数据流和指令执行、以及节点之间的低延迟通信来设计。

第一代 LPU（TSP）在 14nm、25×29 mm 芯片上实现了每平方毫米超过 1 TeraOp/s 的计算密度，工作频率为 900 MHz。第二代 LPU 将采用三星 4nm 制程制造。

五、LPU 不擅长什么？

LPU 并非万能。它的专用性既是优势，也是局限：

不适合训练：模型训练需要大批次、高并行的矩阵运算，GPU 在此场景仍是最佳选择。
通用性差：LPU 只针对线性代数推理优化，无法像 GPU 那样运行图形渲染、物理仿真等通用任务。
规模代价：由于没有外部内存（如 HBM），Groq 需要集成数百颗芯片才能高效加速参数量达数百亿的实用 LLM（例如，运行 Llama2-70B 需要 512 颗芯片），这带来了相当大的通信开销。

六、行业影响与近期动态

2024 年 8 月，Groq 完成由贝莱德私募股权基金领投的 6.4 亿美元 D 轮融资，估值达 28 亿美元。2025 年 2 月，Groq 宣布获得沙特阿拉伯 15 亿美元的承诺投资，用于扩建基于 LPU 的 AI 推理基础设施，并在达曼建立新的 GroqCloud 数据中心。

2025 年 12 月，英伟达同意以约 200 亿美元收购 Groq 的部分资产，这是英伟达迄今规模最大的一笔交易。Groq 将此描述为一项非排他性许可协议，Groq 创始人 Ross 和总裁 Sunny Madra 将加入英伟达。这笔交易本身就说明了 LPU 技术的价值。

七、一句话总结

LPU 是为 AI 推理"量身定制"的芯片：用流水线传送带代替无序调度，用片上 SRAM 代替外部内存，用编译器静态规划代替硬件动态决策——用专用换来了极致速度。

它不打算替代 GPU 训练模型，而是要让训练好的模型在推理时更快、更省、更稳定地服务用户。

参考来源

Groq 官方技术白皮书
— What Is a Language Processing Unit?
https://groq.com/blog/the-groq-lpu-explained
Groq 官方技术博客
— Inside the LPU: Deconstructing Groq's Speed
https://groq.com/blog/inside-the-lpu-deconstructing-groq-speed
Groq LPU Architecture
— 官方架构说明页
https://groq.com/lpu-architecture
Abhinav Upadhyay
— The Architecture of Groq's LPU（基于 Groq 在 ISCA 2020/2022 发表的学术论文）
https://blog.codingconfessions.com/p/groq-lpu-design
HyperAccel 学术论文
— LPU: A Latency-Optimized and Highly Scalable Processor for Large Language Model Inference（arXiv:2408.07326）
https://arxiv.org/html/2408.07326v1
Wikipedia — Groqhttps://en.wikipedia.org/wiki/Groq
Groq 产品白皮书 PDF
— GroqThoughts: What Is a LPU?
https://groq.humain.ai/wp-content/uploads/2024/07/GroqThoughts_WhatIsALPU-vF.pdf
Zheng "Bruce" Li, Medium
— Groq's Deterministic Architecture is Rewriting the Physics of AI Inference（含 Artificial Analysis 独立评测数据）
https://medium.com/the-low-end-disruptor/groqs-deterministic-architecture-is-rewriting-the-physics-of-ai-inference-bb132675dce4

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

[Dify x EdgeOne] 论文猎手——用 Dify + EdgeOne Pages 给科研人造一个每日 arXiv 速读助手

AtomGit开源社区

消息跨端架构演进：基于 C++ 的多端一致性研发框架实践

跨端不是追求 100% 代码复用。核心是在"一致性"与"平台最优体验"之间找到平衡点。对于强交互场景（如键盘区域），保留 Native 实现往往是更好的选择。容器框架的抽象层级要足够精简。过度设计会导致理解成本反增。我们的 BizLogicProtocol 只有 7 个核心方法，足以覆盖所有业务场景。全链路质量监控是成功落地的关键保障。跨端方案最怕的不是技术问题，而是出了问题找不到原因。架构合理性