摘要

大规模预训练基础模型已经成为构建人工智能体系的新型范式,可以快速地适应广泛的下游任务。本文提出了mPLUG,是一种新的跨模态的理解和生成的视觉语言模型。

现有的预训练模型大多存在着计算效率低下、跨模态对齐中长序列的信息不对称的问题。为了解决这种问题,mPLUG引入了一种新型的跨模态跳跃连接的视觉语言架构,通过创建跨层捷径来跳过一定数量的层,从而避免在视觉侧耗时的全自注意力。

mPLUG在大规模的图像-文本对上进行端到端的预训练,具有两种目标,包含判别性目标和生成性目标。在很多下游任务中取得先进结果,并且具有很强的zero-shot的能力。

Introduction

1.视觉语言模型通过对齐视觉和语言模态从大规模的图像-文本对中学习跨模态的表示。学习视觉语言模型的一个巨大挑战就是找到两种模态之间的良好的对齐,来弥补两个模态之间的语义鸿沟。

2.为了发现跨模态对齐,先前的研究使用预训练的目标检测器从图像中提取显著区域,然后与语言对齐。但是这种架构受到多种限制:目标检测器的能力、目标检测器所能表达的预定义的视觉语义、可用的注释数量等。并且从高分辨率的图像中提取基于区域的特征也非常的昂贵。  

最近很多工作在许多视觉语言任务上进行了扩展并取得了不错的效果,它们降低了预训练的目标检测器的需求,并能够以端到端的方式实现图像与问二八年之间的直接对齐。这些模型通过长序列的图像patches和网格提取更细粒度的视觉表示,来获得更好的视觉理解。

在对长的视觉序列建模时仍然存在两个问题:(1)效率:对长的视觉序列进行完全自注意力比对文本序列的完全自注意力需要更多的计算

(2)信息不对称:广泛使用的图像文本的预训练数据中的字幕文本通常短并且很抽象,但是在图像中就能得到更加详细的信息。

3.解释图1(a):

多模态融合的一种直接的方式就是连接注意力网络。视觉和文本早期的融合就是采用单一的transformer架构(其中包含自注意力层和FFN),通过简单地视觉特征和语言特征的级联作为输入。(FFN:前馈神经网络,作用为在自注意力机制处理序列数据后,进一步处理每个位置的特征表示。通常包含两个线性变换,第一个线性变换将输入特征映射到高维空间,通过激活函数进行非线性变换;第二个变换在将结果映射回原始的特征空间)。

这种范式允许自注意力从底层发现模态之间的对齐关系,并且需要对跨模态序列的拼接进行充分的完全自注意力,相当耗时。这种方法会公平地处理来自两个模态的信息,这可能会受到信息不对称的影响,尤其是当模态之间的信息密度和序列长度差异特别大时。

4.解释图1(b):

另一种方式就是分别为文本和图像保留单独的transformer架构,然后使用交叉注意力等技术实现跨模态交互。该架构可以缓解信息不对称的问题。但是对于长的视觉序列,需要计算完全自注意力,就会存在效率低下的问题。

5.解释图1(c):

本文提出mPLUG,是一个统一的多模态预训练框架,用于图像-语言的理解和生成。提出使用跨模态跳跃连接执行视觉-语言的学习,来解决基本的信息不对称问题。

跨模态的跳跃连接并不是在同一层次上融合图像和文本的特征,而是在跨模态的抽象层级中的不同层次进行融合。它创建了跨过一定层数的层间捷径用于视觉表征。

在跨模态跳跃连接的每个块中,为了提高效率,mPLUG 在前几层通过移除视觉侧的协同注意力来实现非对称的注意力。接着是一层连接注意力,将原始的视觉表征和在语言侧的协同注意力的输出串联起来作为输入。

该模型不仅解决了信息的不对称问题,还通过插入的捷径环节梯度消失,减轻模型训练。该模型比其他的跨模态网络模型速度提升了至少4倍。

总结贡献:(1)提出mPLUG(2)为解决信息不对称和效率低下的问题,提出一种具有跨模态跳跃连接的非对称视觉语言架构(3)在广泛的任务上性能好,zero-shot能力强。

 mPLUG

1 Model Architecture

mPLUG 包含两个独立用于图像和文本的单模态编码器、一个跨模态的跳跃连接网络和一个用于文本生成的编码器。

为了更好地对不同模态的偏向性信息建模,首先使用两个单模态编码器分别对图像和文本进行编码。直接使用ViT作为图像编码器对patches进行编码,这比使用预训练的目标检测器进行视觉特征提取更加容易(前面提出先使用预训练的目标检测器提取显著的区域,后获得基于区域的特征)。

视觉编码器将输入的图像打成patches,将其编码成嵌入序列{vcls,v1,v2,v3,..}附加[cls]标记;文本编码器将输入的文本表示成嵌入序列{lcls,l1,l2,l3…}。

然后,将图像和文本的表征输入到跨模态跳跃连接的网络中,该网络包含多个跳跃连接融合块。在每个跳跃连接的融合块中,对每个S个非对称协同注意力采用连接的跨模融合,S是一个定值。

这个网络的目的就是利用跨模态连接的有效性和非对称协同注意力的高效性,来增强跨模态融合。

最后,再将输出的跨模态表示输入到Transformer解码器中进行序列到序列的学习,使得mPLUG同时具备理解和生成能力。

2 Cross-modal Skip-connected Network(跨模态跳跃连接网络)

跨模态跳跃连接网络由N个跳跃连接融合块组成。在每一个跳跃连接融合块中,先执行S次非对称的协同注意力,再对原始的视觉表征和执行非对称协同注意力的文本表征执行连接注意力。也就是首先将单模态编码器输出的文本特征和图像特征通过S个不对称的协同注意力层,然后将输出的文本特征和原始的图像特征连接到一个连接的注意力层。重复这个跳跃连接融合块N次,用于最终的连接图像和文本的表示。

不对称的协同注意力层包含自注意力层(SA)、交叉注意力层(CA)和前馈网络(FFN)组成。

连接注意力层由自注意力层和FFN组成。

最后将[vn;ln]重复输入到下一个跨模态跳跃连接网络中,得到最终的连接图像和文本表示。

3 Pre-training Tasks

本文执行了4个预训练任务,包含3个理解性任务(ITC、ITM、MLM)和1个生成性任务(PLM)。

(1)ITC(Image-Text  Contrastive):该预训练任务用于对齐单模态编码器中的图像特征和文本特征。 具体操作是计算图像到文本和文本到图像的softmax归一化相似度,即计算图像和文本的相似度,使用softmax函数对其进行归一化处理,从而得到一个概率分布,表示不同模态元素之间相似程度。并且取两个动态内存队列(文本和图像)来增加负例的数量,类似与MoCo。

MoCo:维护动态的字典,其中包含大量的负样本。训练过程中,模型从字典中随机抽取负样本,与当前的正样本进行对比学习。使用动量编码器来更新字典的特征,从而保证字典的稳定性。

(2)ITM(Image-Text Matching):这个预训练任务为了预测图像和文本在跨模态表征上是否匹配。

(3)MLM(Masked language Modeling):与BERT类似,随机屏蔽掉15%的tokens,要求模型利用跨模态表示来预测被掩码住的单词。

(4)PrefixLM(Prefix Language Modeling):前缀语言模型,旨在生成给定图像的标题并预测跨模态上下文的文本段。

Conclusion

本文提出了mPLUG,是一个高效的VLP(vision language Pre-training)框架,用于跨模态的理解和生成。mPLUG 引入了具有跨模态跳跃连接的非对称视觉语言架构,解决了计算效率低下和信息不对称的问题。在多种视觉语言任务中效果好,zero-shot迁移能力好。

--------------------------把好意西,初学者先不解析实验啦,需要PPT可以私信哦---------------------------


Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐