如何预估训练或推理大模型时所需要的显存？解析不同参数下大模型显存量化方法

大靠山

4626人浏览 · 2024-07-11 17:47:11

大靠山 · 2024-07-11 17:47:11 发布

本篇讲述如何根据模型参数量，参数设置以及batch size推理所需要的GPU显存。

假设现在想要全参数训练一个llama-6B的模型，那么如何预估自己需要准备多大显存的卡？

当fp32、fp16、int8模式下时显存大小具体又有什么变化呢？本篇来解答这个问题。

下面是一个快捷目录。

1. 大模型RAM构成

2. 一个大模型显存计算示例

一、大模型RAM构成

大模型所需要的考虑的显存包括三个部分：模型本身，CUDA kernel，batch大小

1.模型本身

模型本身需要的 RAM 大致分三个部分：模型参数、梯度、优化器参数

模型参数

等于参数量 * 每个参数所需内存。

那么我们首先考虑精度对所需内存的影响：

fp32 精度，一个参数需要 32 bits, 4 bytes；

fp16 精度，一个参数需要 16 bits, 2 bytes；

int8 精度，一个参数需要 8 bits, 1 byte。

梯度

同模型参数，等于参数量 * 每个梯度参数所需内存

优化器参数

不同的优化器所储存的参数量不同。

对于常用的 AdamW 来说，需要储存两倍的模型参数（用来储存一阶和二阶momentum）。

2. CUDA kernel

CUDA kernel 也会占据一些 RAM，大概 1.3GB 左右，查看方式如下

torch.ones((1，1)).to("cuda")` `print_gpu_utilization()` `   ``   ``>>> GPU memory occupied: 1343 MB

3. batch

首先需要计算batch中每个instance的中间变量内存。

等于用中间计算参数量 *每个参数所需内存 * batch size。

二、一个大模型显存计算示例

那么接下来大家可以试着解答这个问题，batch size 为50，int8精度下的Llama-6B所占显存为多少？

1. 模型本身

模型参数：对于 int8，LLaMA-6B 需要 6B *1 byte = 6GB

梯度：同上，6GB

优化器参数：int8 的 LLaMA-6B，AdamW 需要 6B* 1 bytes * 2= 12 GB

CUDA kernel : 1.3GB

int 8精度下 Llama-6B： 6GB+6GB+12GB+1.3GB = 25.3GB

2. batch

LLaMA的架构：

hidden_size = 4096, intermediate_size =11008, num_hidden_layers = 32, context_length = 2048

每个实例：

(4096 +11008) * 2048 *32 * 1byte = 990MB

那么batch size为50

990MB * 50 = 48.3GB

那么最终batch size 为50，int8精度下的Llama-6B所占显存为

25.3GB + 48.3GB = 73.6GB

刚好一张 A100（80GB RAM），在batch size 为50，int8精度的设定下可以进行Llama-6B全参数微调。

那么其他的情况大家也都可以根据实际精度，模型大小、中间变量计算以及batch来类推了。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述