FP32，TF32，FP16，BF16介绍

qq_41298763

7230人浏览 · 2024-01-19 20:41:08

qq_41298763 · 2024-01-19 20:41:08 发布

一、什么是浮点型数值

浮点数是一种数据类型，指有小数点的实数。以二进制存储在计算机中时，包括符号位，指数位和小数位（尾数位）。
浮点型简单讲就是实数的意思。浮点数在计算机中用以近似表示任意某个实数。具体的说，这个实数由一个整数或定点数(即尾数)乘以某个基数(计算机中通常是 2)的整数次幂得到，这种表示方法类似于基数为 10 的科学记数法。
浮点型数据分为：单精度（float，4字节，32比特）与双精度（double，8字节，64位比特）
不同于定点数，浮点型数据以二进制存储在计算机中，因此计算时一般都是有误差，都是近似。（一般期望两个浮点型的误差相互抵消，所以一般使用同类型的浮点数进行相互计算）
例：0.1用二进制表示，将是一个无限循环小数，因此会出现舍入误差，造成精度损失。
进制相互转换：
1）整数十进制转化为二进制：除2取余数
2）小数位十进制转化为二进制：乘2取整数(对0.125求二进制：0.125 乘以 2 等于 0.25，整数位为0；0.25乘以2为0.5，整数为0，0.5乘以2等于1，整数位为1，所以停止运算。0.125的二进制为0.001。)
3）小数位二进制转化为十进制：小数点后第一位上的二进制数字乘以2的负一次方加上第二位上的二进制数字乘以2的负二次方，以此类推。
浮点型数据如何存储：
float为32比特，三个部分组成。第1位表示符号（正负），第2到第9位表示指数，后23位表示尾数。
以float 2.5为例：
2的二进制为10，0.5的二进制为1，因此2.5的二进制为10.1，可以改写为1.01 x 2^1。所以尾数部分为0100 0000 0000 0000 0000 000，共23位。指数为1，偏移量为127，所以指数部分需要1 + 127 = 128的二进制，即 10000000.所以float2.5保存在计算机中为：0 10000000 01000000000000000000000 。
（为什么还要加上偏移量127。因为指数部分为8比特，即0-255，但指数还存在正负，所以为-127-128，为了同时表示正负指数以及它们的大小，所以需要加上127）

double类型为64比特，计算方法与float类似，只不过指数的偏移量为1023
5的特殊情况：比如float 16777216，它与0.1类似，尾数超出了计算机存储的限制。
16777216 = 1.000000000000000000000001 x 2^24。可以发现尾数有24位，但float的尾数只能存储23位，所以存储时最后一个1就舍去了，造成精度问题。但由于指数位置保存的数24，所以在计算时会默认那个被抛弃的尾数当0处理，所以存储的值和你认为的值是存在误差的
由上述5，6可知，无论是float，还是double都有一个取值范围。
float的有效数字为一般7位，即由于尾数位的限制，单精度浮点数通常能够保证大约7位十进制数的精度。（并不是说当float有效数字为8位时，一定会出现精度问题，只是最好是7位）
double一般为15位
float与double区别：
double类型精度高，范围大，但时存储和计算效率相较于float会差一些。因此在处理大量数据时，float性能会更好，更有效率。而我们一般使用float就够了，数值的范围不需要那么大/
float与double范围和精度
范围
float和double的范围是由指数的位数来决定的。(因为表示的时候都是1.x * 2^Y的形式，所以忽略了1.x的效果，直接取指数表示浮点数的范围)
float：1bit(符号位) 8bits(指数位) 23bits(尾数位)
double：1bit(符号位) 11bits(指数位) 52bits(尾数位)
于是，float的指数范围为-127+128，而double的指数范围为-1023+1024。
其中负指数决定了浮点数所能表达的绝对值最小的非零数；而正指数决定了浮点数所能表达的绝对值最大的数，也即决定了浮点数的取值范围。
float的范围为：-2^128 ~ +2^128，也即-3.40E+38 ~ +3.40E+38；
double的范围为：-2^1024 ~ +2^1024，也即-1.79E+308 ~ +1.79E+308。

精度
float和double的精度是由尾数的位数来决定的，尾数越多能表示的小数点后面有效数字就越多，因此精度就越高。浮点数在内存中是按科学计数法来存储的，其整数部分始终是一个隐含着的“1”，由于它是不变的，故不能对精度造成影响。
float：2^23 = 8388608，一共七位，这意味着最多能有 7 位有效数字，但绝对能保证的为 6 位，也即float的精度为 6~7 位有效数字；
double：2^52 = 4503599627370496，一共 16 位，同理，double的精度为 15~16 位。
为什么要用偏移量的方式来计算指数？
如果不采用偏移量的方式：
8 位 2 进制数表示的有符号数范围有两个区间：0000 0000~0111 1111和1000 0000~1111 1111，分别为+0和-0。
大家看到这里的问题了吧，有两个 0 ，一个正 0 和一个负 0。
如果采用偏移量的方式：
127 转化为二进制是：0111 1111
当我们要表示 -127，则有127-127即0111 1111 - 0111 1111 = 0000 0000
当我们要表示 -126，则有127-126即0111 1111 - 0111 1110 = 0000 0001
当我们要表示 -2，则有127-2即0111 1111 - 0000 0010 = 0111 1101
当我们要表示 -1，则有127-1即0111 1111 - 0000 0001 = 0111 1110
当我们要表示 0，则有0+127即0000 0000 + 0111 1111 = 0111 1111
当我们要表示 1，则有1+127即0000 0001 + 0111 1111 = 1000 0000
当我们要表示 2，则有1+127即0000 0010 + 0111 1111 = 1000 0001
当我们要表示128，则有128+127即1000 0000 + 0111 1111 = 1111 1111
由上面的例子，我们可以得出规律，采用移位存储技术，我们可以使用 8 位二进制来表示从-127~+128共计 127 个负数+零(0)+ 128 个正数总共 256 个数，看来使用移位存储既没有 +0 和 -0 的问题，又能充分使用新生成的8位二进制数最大限度的表示单精度浮点数的幂指数，是非常合理的。

二、新数据类型FP32，TF32，FP16，BF16

在这个算力紧缺的时代，需要在精度与性能之间做取舍。
在这里插入图片描述

NV（nvidia）白皮书推出FP32，TF32，FP16，BF16都是存储浮点型数据的新数据类型（FP32就是float），通过牺牲精度于范围来提升性能。与单精度浮点型相比吗，它们只需要一半的存储空间和带宽。

NV推出的这几个新数据类型也只是在位的分配上有所不同：1）通过缩小指数位位宽来降低数值范围。2）通过缩小尾数位宽来缩小精度范围。从而降低了整个深度学习计算负载的大小。

常被广泛使用，舍弃一点精度可以换取计算效率的大幅度上升，而不影响推理结果

FP16为例：
它与8位/16位整数相比，动态范围更高（取值范围），可以使高对比度图片的更多细节加以保留。
它与float相比i，只需要一般的存储空间和带宽（性能上升），但牺牲了精度和数值范围
BF16——为深度学习而优化的新数字格式，保证了计算能力与计算量的节省，且预测精度的降低幅度最小
BF16的目的是优化精度和预测精度之间的权衡
（牺牲了一些精度以换取更大的数值范围和更小的存储空间）
（现在大多数人工智能训练都使用FP32， 32位浮点数。虽然这意味着计算非常准确，但它需要强大的硬件和大量的电力。）
为什么不用FP16？
1. 指数比FP32小，因此动态范围大大缩小。
2. 将FP32数字转换成FP16比转换成BF16要困难得多——这比FP32转化为BF16直接截断尾数要困难多得多，而尾数截断是一个相对简单的操作。
3. 硬件原因：…
为什么BF16预测精度降低幅度最小？
1. BF16保留了FP32的近似动态范围（可以表示的数字的整个范围），因为指数是相同的大小。
2. 使用BF16算法的预测精度与FP32相似，但不如FP32精确（谷歌曾说过，这是因为神经网络对指数的大小比尾数敏感得多，也正是因为如此，FP16不如BF16精确）对于大多数应用程序，这种折衷还是被认为可以接受。
TF32也是FP32的绝佳替代品：TF32采用与FP32相同的8位指数，因此可以支持相同的数值范围。 TF32 使用与半精度 (FP16) 数学相同的10位尾数，表明其具有足够的余量来满足AI工作负载的精度要求。
数值范围与FP32，BF16相同，性能好于FP32，差于BF16，准确性小于FP32，大于BF16

在深度学习计算里，范围比精度要重要得多，于是有了BF16，牺牲了精度，保持和 FP32 差不多的范围（指数都是8位），而TF32的设计，在于即汲取了BF16的好处，又保持了一定程度对主流 FP32 的兼容，与BF16一样，FP32只要截断就是TF32 了。

（参考：https://www.cnblogs.com/caomu08/p/15161397.html）

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m