5分钟理解transformer模型位置编码

Bert模型是自然语言处理方面程碑式的进步，核心是transformer层, 而transformer是自注意力编码器，循环网络天生的文字顺序信息在自注意力编码器中没有了，而语言往往是顺序不同意思相差很大。所以transformer的作者设计了一个位置编码方式，为每个不同位置的token...

文章共1,509字 · 阅读需要大约6分钟

一键AI生成摘要，助你高效阅读

问答

jianhua_tu

12447人浏览 · 2020-08-07 16:43:25

jianhua_tu · 2020-08-07 16:43:25 发布

Bert模型是自然语言处理方面里程碑式的进步，其核心是transformer层, 而transformer采用自注意力编码器摒弃了循环网络，循环网络天生的顺序信息在自注意力编码器中没有了，而语言往往是顺序不同意思相差很大。所以transformer的作者设计了一种三角函数位置编码方式，为每个不同位置的token单独生成一个位置向量（或者位置嵌入，即position embedding,缩写为PE)。下面的公式是位置编码的公式，但是论文及网上其他文章对公式解释不是很清楚，所以我在此采用例子来帮助初学者理解。

式中pos为token在序列中的位置号码，它的取值是0到序列最大长度max_que_length-1之间的整数。比如“[cls] 我爱中华 [sep]”是6个token组成的序列，[cls]的pos值为0，“我”的pos值为1，“爱”的pos为2，“中”为3，“华”为4，'[sep]'为5 。bert base最大长度max_que_length是512，pos取值还能一直到511。当然如果序列真实长度小于最大长度时，后面的位置号没有意义，最终会被mask掉。

dmodel是位置向量的维度，与整个模型的隐藏状态维度值相同，这解释了为什么起dmodel这个名字，这个维度在bert base模型里设置为768。

i 是从0到dmodel/2-1之间的整数值，即0，1，2，...383。

2i 是指向量维度中偶数维，即第0维，第2维，第4维，直到第766维。

2i+1 是维度中奇数维，即第1维，第3维，第5维，直到第767维。

PE是一个矩阵，行数是最大的序列长度max_que_length,列数是dmodel,即它的形状为[max_que_length,dmodel]

PE(pos,2i)是PE矩阵中第pos行，第2i列的数值，是个标量。这里是在第偶数列上的值，偶数列用正玄函数计算。

PE(pos,2i+1) 是PE矩阵中第pos行，第2i+1列的数值，是个标量。这里是在第奇数列上的值，奇数列用余玄函数计算。

仍然以序列“[cls] 我爱中华 [sep]”为例，现在计算序列中"我"的位置向量，这个向量有768维，我考虑前面4维的值和最后2维做为例子，其他维度则省略：

"我"在序列中位置pos的值是1，当i=0时，2i表示第0维，2i+1表示第1维,dmodel=768,为简洁，此处小数点后只取2位

PE(1,0）= sin(1/(10000)^(0/768)) = sin(1/1) = sin(1) = 0.84

PE(1,1) = cos(1/(10000)^(0/768)) = cos(1/1)=cos(1) = 0.54

再看当i=1时的第2维和第3维