什么是UTF-8？

北至屿她城

19018人浏览 · 2022-09-07 11:31:12

北至屿她城 · 2022-09-07 11:31:12 发布

最近接触到一个新名词，叫UTF-8。

<meta charset="UTF-8">

注：上面这行代码是指定网页的编码方式为UTF-8。

用一句话说明的话，UTF-8是一种编码方式，一个字节包含8个bits。

那么，什么是编码？为什么要用这个东西？

编码

我们都知道人有人的语言，计算机有计算机的语言，就是机器语言，所谓的二进制，0和1，1代表有一个信号，0表示没有信号。那怎么把人的语言翻译成机器语言呢，就需要一个字典，字典就是ASCII，如下图，左边是这个行为就是编码，左边是机器可以识别的ASCII码，右面是代表的字符，比如 00100001 代表 “!”, 从左到右转换就是解码（decode），从右到左就是编码（encode）。
解码与编码

因为ASIIC码有8位数，每位是一个比特 (bit)，8位就是一个字节（byte）。除了第一位是0，其他7位都可以有0 或者 1 两个选择，所以ASCII 一共可以表示 2^7 ，也就是128个字符。包括a-z 大小写，0-9 数字和一些标点符号等。其中真正可读的只有95 个字符，其他的都是一些控制符，比如NUL，代表NULL。

对于英语来说， ASCII 包括所有的字母了，但是对于其他的语言来说，比如汉语，当然95个字符远远不够。有人说ASCII的第一位只能是0很浪费，如果也可以是1 的话，就会多128个组合，一共256个。然而这样也不够。

多字节编码

上述编码是单字节编码，也就是只有8个比特。如果想匹配多于256个字符的语言，一个字节显然不够，用两个字节的话，16比特，可以编码65536个字符，BIG-5就是一个双字节编码方式，它包括大多数中文繁体字，GB18030 则包括繁体和简体。

这样每种语言可能都有他们的编码体系，用着不同的字节，对于人和机器来说，这样都很容易混乱。所以我们有：

统一编码 Unicode

Unicode又叫统一码、万国码、单一码，是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

Unicode定义了一个表，表中为世界上每种语言中的每个字符设定了统一并且唯一的码位（code point），以满足跨语言、跨平台进行文本转换的要求。在表示一个Unicode的字符时，通常会用“U+”然后紧接着一组十六进制的数字来表示这一个字符。

比如，U+0639表示阿拉伯字母Ain，U+0041表示英语的大写字母A，U+4E25表示汉字严。具体的符号对应表，可以查询unicode.org.

Unicode的问题

需要注意的是，Unicode 只是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。

比如，汉字严的 Unicode 是十六进制数4E25，转换成二进制数足足有15位（100111000100101），也就是说，这个符号的表示至少需要2个字节。表示其他更大的符号，可能需要3个字节或者4个字节，甚至更多。

这里就有两个严重的问题，第一个问题是，如何才能区别 Unicode 和 ASCII ？计算机怎么知道三个字节表示一个符号，而不是分别表示三个符号呢？第二个问题是，我们已经知道，英文字母只用一个字节表示就够了，如果 Unicode 统一规定，每个符号用三个或四个字节表示，那么每个英文字母前都必然有二到三个字节是0，这对于存储来说是极大的浪费，文本文件的大小会因此大出二三倍，这是无法接受的。

它们造成的结果是：1）出现了 Unicode 的多种存储方式，也就是说有许多种不同的二进制格式，可以用来表示 Unicode。2）Unicode 在很长一段时间内无法推广，直到互联网的出现。

UTF-8

互联网的普及，强烈要求出现一种统一的编码方式。UTF-8 就是在互联网上使用最广的一种 Unicode 的实现方式。其他实现方式还包括 UTF-16（字符用两个字节或四个字节表示）和 UTF-32（字符用四个字节表示），不过在互联网上基本不用。重复一遍，这里的关系是，UTF-8 是 Unicode 的实现方式之一。

UTF-8 最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。

UTF-8 的编码规则很简单，只有二条：

1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的 Unicode 码。因此对于英语字母，UTF-8 编码和 ASCII 码是相同的。

2）对于n字节的符号（n > 1），第一个字节的前n位都设为1，第n + 1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的 Unicode 码。

下表总结了编码规则，字母x表示可用编码的位。
在这里插入图片描述

跟据上表，解读 UTF-8 编码非常简单。如果一个字节的第一位是0，则这个字节单独就是一个字符；如果第一位是1，则连续有多少个1，就表示当前字符占用多少个字节。

下面，还是以汉字严为例，演示如何实现 UTF-8 编码。

严的 Unicode 是4E25（100111000100101），根据上表，可以发现4E25处在第三行的范围内（0000 0800 - 0000 FFFF），因此严的 UTF-8 编码需要三个字节，即格式是1110xxxx 10xxxxxx 10xxxxxx。然后，从严的最后一个二进制位开始，依次从后向前填入格式中的x，多出的位补0。这样就得到了，严的 UTF-8 编码是11100100 10111000 10100101，转换成十六进制就是E4B8A5。