Position Embedding 的解释及具体应用

失败人生自救指南

24461人浏览 · 2020-11-13 16:22:51

失败人生自救指南 · 2020-11-13 16:22:51 发布

Position Embedding 的解释及具体应用

这是我的第一篇博客，想把博客作为分享巩固自己学习感悟的地方。
最近做了一个要用到Position Embedding 的项目，于是就研究了一下。

词向量

词向量，顾名思义就是把每一个单词变成一个向量，以便于后续对文本进行处理，词向量在pytorch中是用nn.Embedding(n_letters + 1, dim)来实现的，这个函数相当定义了一个词向量矩阵，n_letters 是你文本中所有单词的个数，dim是你设置的词向量维数。为什么是max_seq_len+1维的呢?这是因为在对文本处理的时候对文本进行了补0操作，所以第一行相当于是没有意义的，代表0。
举个例子：
我定义了一个10×5的词向量矩阵，然后对输入的两行句子（句子的长度为4）进行词向量编码，于是得到了一个size=torch.Size([2, 4, 5])的张量。

import torch.nn as nn
import torch
from torch.autograd import Variable
embed=nn.Embedding(10,5)
voc_embed=embed(Variable(torch.LongTensor([[2,3,4,0],[1,2,3,5]])))
print(voc_embed)

tensor([[[ 0.7789,  0.0579, -0.7092, -0.0603,  1.8060],
         [-0.0105,  0.9317,  0.0043,  0.8903, -1.5857],
         [ 0.4796,  0.4742, -1.1648, -0.9848, -0.4475],
         [-0.1791,  0.8067,  0.7030,  0.9265,  0.7657]],

        [[ 1.5996, -0.6025,  1.0755, -0.2043, -1.8362],
         [ 0.7789,  0.0579, -0.7092, -0.0603,  1.8060],
         [-0.0105,  0.9317,  0.0043,  0.8903, -1.5857],
         [ 0.9202, -1.3789, -1.3456, -0.1070,  1.2475]]],
       grad_fn=<EmbeddingBackward>)

Position Embedding

词向量的问题在于它只记录了每一个单词的词信息，而没有记录这些单词在句子中出现的位置信息，我们知道相同的单词在句子中出现的先后位置不同表示的意思可能是完全不同的。所以我们也应该记录单词在句子中的位置信息，这就是位置编码的意义。Position Embedding最先在《Attention Is All You Need》这篇论文中提出，Position Embedding加在词向量层之后，补充位置信息，注意这里加入位置编码的方式不是拼接，而是直接向量相加（Transformer 源码如此，详细解释见here）。举个例子，代码如下：

import torch
from torch.autograd import Variable
import numpy as np
import torch.nn as nn
embed=nn.Embedding(10,5)
voc_embed_0=embed(Variable(torch.LongTensor([[2,3,4,0],[1,2,3,5]])))
class PositionalEncoding(nn.Module):

    def __init__(self, max_seq_len, d_model):
        """初始化。

        Args:
            d_model: 一个标量。模型的维度，论文默认是512
            max_seq_len: 一个标量。文本序列的最大长度
        """
        super(PositionalEncoding, self).__init__()

        # 根据论文给的公式，构造出PE矩阵
        position_encoding = np.array([
            [pos / np.power(10000, 2.0 * (j // 2) / d_model) for j in range(d_model)]
            for pos in range(max_seq_len+1)])
        # 偶数列使用sin，奇数列使用cos
        position_encoding[:, 0::2] = np.sin(position_encoding[:, 0::2])
        position_encoding[:, 1::2] = np.cos(position_encoding[:, 1::2])
        position_encoding = torch.from_numpy(position_encoding)
        self.position_encoding = nn.Embedding(max_seq_len + 1, d_model)
        self.position_encoding.weight = nn.Parameter(position_encoding,
                                                  requires_grad=False)
P=PositionalEncoding(4,5)
voc_embed_1=P.position_encoding(Variable(torch.LongTensor([[1,2,3,0],[1,2,3,4]])))
print(voc_embed_0[0].size())
print(voc_embed_1[0].size())
#将两个向量拼接起来
result=torch.zeros(2,4,5)
t=torch.zeros(4,5,dtype=torch.float64)
for i in range(2):
    ans=t.new_tensor(voc_embed_0[i])
    voc_embed_2= ans + voc_embed_1[i]
    print(voc_embed_2.size())
    result[i]=voc_embed_2
print(result.size())

其实由Position Embedding的定义代码我们可以看出：其实Position Embedding和nn.Embedding很相似，只是Position Embedding将nn.Embedding的权重矩阵换成了论文中给的PE矩阵。
经过如此处理过后的词向量便具有了位置信息，可以在网络中做进一步运算，我做的是有关CNN的项目，在加入了位置信息再进行卷积后，得到的结果正确率有很大的提升。
希望我的这篇博客对你有帮助。

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

我的第一个开源项目｜AI-PROXY：一站式多厂商AI API代理网关，轻松解决网络请求难题

GitCode 开源社区

沁言学术文献检索功能深度剖析：多渠道智能对接，一键直达原文，拓展你的学术视野

沁言学术的文献检索功能，以多渠道智能对接为核心，一键直达原文，帮助你轻松拓展视野、准确获取资料。如果你正为文献搜集烦恼，快去注册体验吧！试试输入你的研究关键词，看看AI的惊喜推荐。欢迎评论区分享你的检索故事，一起探讨如何进一步优化。

GitCode 开源社区

沁言学术AI选题功能剖析：大数据驱动创新，中英匹配跨界，点亮你的研究灵感

大家好，我是专注学术工具和研究技巧分享的小编。在前几期内容中，我们探讨了沁言学术（）的文献检索、插件集成以及AI精读笔记功能。今天，我们从AI选题的角度切入，阐述平台如何基于大数据与学科前沿驱动选题推荐，支持中英文输入、研究方法等多维度匹配。这些机制不仅促进创新选题，还助力跨界研究，帮助学者从“选题迷茫”转向“灵感迸发”。用户反馈显示，这个功能能将选题决策时间缩短40%，并提升选题的原创性，尤其适