什么是算力？

吴佳浩 Alben

324人浏览 · 2026-03-11 15:29:36

吴佳浩 Alben · 2026-03-11 15:29:36 发布

什么是算力？

作者：吴佳浩

撰稿时间：2026-3-10

测试版本：4090 48G魔改&5090 32G

一份写给 AI 工程师的硬件认知指南

前言

“算力不够” ——这句话你一定听过。

但你真的知道它在说什么吗？

很多人第一反应是：

算力 = TFLOPS 越高越强

这个认知不完整，在很多场景下甚至是错的。

本文从工程实践出发，帮你建立一个清晰的算力思维模型。

一、算力不是单一指标

在 AI 系统里，真正决定性能的是一个组合公式：

有效算力 = min(计算能力, 显存带宽, 显存容量, IO带宽, 软件效率)

就像木桶原理：任意一项成为瓶颈，整体性能就被限制。

二、算力的历史演化

理解"算力"这个词为什么如此混乱，需要了解它的历史。

三、三大核心指标详解

3.1 显存容量：能不能跑

显存决定了你能不能把模型加载进来。

核心公式：

显存需求 ≈ 参数量 × 精度字节数

精度	每参数占用
FP32	4 bytes
FP16 / BF16	2 bytes
INT8	1 byte
INT4	0.5 bytes

常见模型显存需求（FP16）：

模型规模	显存需求	典型 GPU
7B	≈ 14 GB	RTX 4090 (24GB)
14B	≈ 28 GB	RTX 4090 × 2
70B	≈ 140 GB	H100 × 2
405B	≈ 810 GB	H100 × 10+

⚠️ 很多人说"算力不够跑 70B"，真实意思其实是显存不够。

3.2 显存带宽：跑多快

显存带宽决定了数据从显存搬运到计算单元的速度。

这是 LLM 推理速度的核心决定因素。

LLM 推理速度简化公式：

token/s ≈ 显存带宽 / 模型大小

举例（7B 模型，FP16 ≈ 14GB）：

RTX 4090: 1000 GB/s ÷ 14 GB ≈ 70 token/s
A100:     1555 GB/s ÷ 14 GB ≈ 110 token/s
H100:     3350 GB/s ÷ 14 GB ≈ 240 token/s
bar-chart
    title 主流 GPU 显存带宽对比 (GB/s)

GPU	显存带宽	显存容量
RTX 4090	1,008 GB/s	24 GB（官方版本）
RTX 5090	~1,800 GB/s	32 GB
A100 SXM	2,000 GB/s	80 GB
H100 SXM	3,350 GB/s	80 GB
H200	4,800 GB/s	141 GB

💡 这就是为什么 4090 推理速度有时不如 A100：不是 TOPS 不够，而是带宽更窄。

3.3 Tensor Core 算力：理论上限

Tensor Core 是专门加速矩阵乘法的硬件单元，决定了计算密集型任务的理论上限。

主流 GPU Tensor Core 算力对比：

GPU	FP16 TFLOPS	INT8 TOPS	架构
RTX 3090	35	285	Ampere
RTX 4090	82	660	Ada Lovelace
RTX 5090	~200+	1,600+	Blackwell
A100 SXM	312	624	Ampere
H100 SXM	989	1,979	Hopper
H200 SXM	989	1,979	Hopper

四、不同场景下"算力"指什么

场景对照表

场景	"算力"指什么	最关键指标
LLM 推理（能不能跑）	显存容量	GB
LLM 推理（跑多快）	显存带宽 + TOPS	GB/s + TFLOPS
AI 模型训练	FP16/BF16 TFLOPS	TFLOPS
CV / 视频推理	INT8 TOPS	TOPS
芯片宣传材料	通常是 TOPS	需注意精度单位
移动端 / NPU	INT8/INT4 TOPS	TOPS

五、经典案例：48GB 魔改 4090 vs 32GB 5090

为什么 显存更大 的 GPU，反而比不过显存更小的新卡？

这是一个非常有代表性的反直觉案例。

⚠️ 特别说明：NVIDIA 官方从未发布过 48GB 版本的 RTX 4090。 市面上流通的"48GB 4090"均为第三方厂商将显存芯片换焊为 48GB 的魔改（非官方）版本，不在 NVIDIA 官方产品线内，存在兼容性与稳定性风险，购买需谨慎。

核心结论：

魔改 48GB 4090 只换焊了显存芯片，扩大了容量
带宽、CUDA核心、Tensor Core 全部没有变化

32GB 5090 是整体架构升级
带宽提升 ~70%，AI算力提升 ~2-3倍

本质：显存容量 ≠ AI 性能

六、LLM 推理的内存墙问题

这是 99% AI 工程师容易忽略的核心知识。

为什么同样 TFLOPS 的 GPU，速度能差 3 倍？

实际决定速度的是算术强度（Arithmetic Intensity）：

算术强度 = 计算量（FLOPS）/ 数据访问量（Bytes）

高算术强度 → Compute-bound → TFLOPS 重要
低算术强度 → Memory-bound → 带宽重要

LLM 单 token 推理的算术强度极低，因此：

带宽 >>> TFLOPS

七、训练 vs 推理的算力需求对比

维度	训练	推理
关键指标	FP16/BF16 TFLOPS	带宽 + TOPS
显存需求	模型 + 梯度 + 优化器 ≈ 6× 参数	模型 + KV Cache
计算量	参数量 × 4-6	参数量 × 2
典型硬件	H100 集群	A10G / L4 / 4090
精度要求	BF16 必须	INT8 / FP8 可用

八、精度与 TOPS 的关系

芯片宣传中最常见的"坑"：

RTX 4090 实际数字：

精度	算力
FP32	82.6 TFLOPS
FP16 (Tensor Core)	82.6 TFLOPS
BF16	82.6 TFLOPS
INT8	660 TOPS
INT4	1,321 TOPS

⚠️ 宣传材料里的 “TOPS” 通常是 INT8 甚至 INT4 数字，与 FP16 不能直接对比！

九、新架构带来的质变

从 Ada Lovelace (4090) 到 Blackwell (5090) 的变化，远不止参数提升：

十、工程师速查卡

选型决策树

一句话总结

能不能跑  →  显存容量（GB）
跑多快    →  显存带宽（GB/s）
理论上限  →  TOPS / TFLOPS

十一、常见误区汇总

误区	正确认知
“算力越高跑越快”	LLM 推理主要受带宽限制，不是 TOPS
“显存大 = 性能强”	显存容量只决定能不能跑，不决定速度
“TOPS 越高越好”	TOPS 和 TFLOPS 精度不同，不能直接比较
“4090 比 A100 强”	游戏强，但 LLM 推理 A100 带宽更高更快
“魔改 48GB 4090 = 高端 AI 卡”	仅第三方换焊显存芯片，只增加了容量，带宽和算力没变；且非 NVIDIA 官方产品，稳定性存疑
“训练和推理需求一样”	训练需要 FP16 TFLOPS，推理更需要带宽

结语

算力不是一个数字，而是一个系统。

在工程实践中，记住这个框架：

下次再听到"算力不够"，先问三个问题：

是显存不够？（装不下）
还是带宽不够？（跑太慢）
还是 TOPS 不够？（计算跟不上）

只有搞清楚瓶颈在哪，才能做出正确的硬件选型决策。

本文基于工程实践经验整理，数据仅供参考，实际性能受软件栈、精度、batch size 等因素影响。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

1.4构建电商数据分析的核心能力模型

电商数据分析的核心能力模型遵循60/30/10原则：60%业务思维（需求拆解、指标体系建设、问题归因等），30%工具技能（Excel/SQL为主，Python/BI为辅），10%统计基础（描述统计、对比分析等）。业务思维决定分析方向是否正确，工具技能影响执行效率，统计基础避免错误结论。重点在于：1）沉浸业务场景理解运营逻辑；2）工具学到"够用"程度即可；3）掌握基础统计方法而非

AtomGit开源社区

Linux第一周作业：1、Linux安装过程 2、基础命令的用法 3、文件系统的基本原理和常用命令

【1】基础环境准备：- 虚拟机软件：VMware Workstaion Pro（Windows用）、VMware Fusion Pro（Mac用）- Linux OS镜像文件（注意Windows下载 amd64 架构的，Mac下载aarch64架构或 arm64 架构）- Ubuntu- Rocky- Openelur- MobaXterm软件（给Windows方便SSH用的）【2】安装虚拟机软件

AtomGit开源社区

跟网型逆变器小干扰稳定性分析与控制策略优化研究（Simulink仿真实现）

弱电网因其高阻抗和低短路比特性，常导致系统不稳定，限制了功率传输。本研究通过仿真，建立了弱电网条件下跟网型逆变器的小信号扰动模型，包括状态空间模型和阻抗模型。我们提出了一种计算稳态工作点的新方法，并利用状态空间矩阵特征值分析，对系统稳定性进行了深入评估，确定了稳定性界限。为直观比较不同控制策略的效果，我们利用Simulink构建了仿真模型，包括传统控制策略模型和采用双锁相环阻抗重塑的优化控制策略模