An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

Q渡劫

273人浏览 · 2023-10-18 12:58:17

Q渡劫 · 2023-10-18 12:58:17 发布

目录

Vision Transformer（ViT）

标题

摘要

引言

如何将Transformers用在计算机视觉

未来创新工作

相关工作

ViT模型、实验

总结

Vision Transformer（ViT）

ViT 挑战了卷积神经网络在计算机视觉领域的绝对统治地位。ViT证明如果能在足够大的数据集上去训练，那么就可以不需要卷积神经网络，直接使用标准的 Transformer 也能把视觉问题解决好。ViT 不仅在计算机视觉领域挖了一个大坑；同是它也打破了 CV 和 NLP 之间的壁垒，在多模态领域也挖了一个大坑。可以说，ViT 开启了计算机视觉新时代。

标题

论文标题的意思是：一张图片等价于很多16×16 的单词，Transformer 用于大规模图像识别。16×16 是指将一张图片划分成若干个块（patch），每一个 patch 大小为 16×16。这样一张图片就可以看作是若干个 patch 组成。

摘要

尽管 Transformer 已经成为自然语言处理任务事实上的一种标准，但是在计算机视觉上的应用还是非常有限。在计算机视觉领域，注意力机制要么和卷积神经网络一起使用，要么在保持原有网络结构不变的情况下替换局部的卷积运算（例如 ResNet-50 中把其中每某一个残差块使用注意力机制替代）。本文证明对卷积神经网络的依赖不是必要的，原始的 Transformer 可以直接应用在一系列小块图片上并在分类任务上可以取得很好的效果。在大的数据集上预训练的模型迁移到中小型图片数据集上 (ImageNet, CIFAR-100, VTAB等)，与目前最好的卷积神经网络相比，ViT 可以取得非常优秀的结果并且需要更少的训练资源。

引言

在自然语言处理任务上，通常会在大的训练集上去训练 Transformer，然后在小的特定任务数据集上去微调。目前可以训练含有上千亿参数的 Transformer 模型，且随着模型和数据集的增加，并没有出现饱和现象。在计算机视觉领域，卷积神经网络仍然占据主导。最近一些新的研究，有的将自注意力机制和卷积神经网络结合起来训练（即在较小的特征图上使用自注意力机制），这是一种减少序列长度的方法；还有的是使用局部图片作为输入，然后使用 Transformer，也有论文研究分别在图像高度或宽度上使用 Transformer，这些都是为了减少序列长度。但以上方法都存在不足，都是针对特定任务来使用，在大规模图像识别数据集，像 ResNet 这样的网络仍然是主流。

如何将Transformers用在计算机视觉

首先将图像划分为一个个 patch，然后使用全连接网络进行线性变换，这样就得到了 patch 线性变换序列，最后将 patch 输入到 Transformer，这里可以将 patch 看成是一个个单词。举个例子，假设图像大小是 224 × 224，16×16 的 patch，则最终会有196个 patch。可以看到，整篇论文处理流程还是很简洁的，基本上没有什么技术难点。

Transformer 与卷积神经网络相比缺少归纳偏置，例如相关性（locality）和平移不变性（translation equivariance）。因此为了得到更好的结果，需要有足够多的训练数据，最后一段就是介绍模型效果，果然效果拔群。

图片处理成 patch 序列，然后使用 Transformer 去处理，取得了接近或超过卷积神经网络的结果，同时训练起来也更便宜。

未来创新工作

一是和目标检测和分割结合起来，ICCV 2021 最佳论文 Swin Transformer 就证明了 Transformer 在检测和分割任务也能取得很好的效果；

另一个是自监督预训练，因为本文是有监督预训练，自监督和有监督预训练还存在着很大的差距，最近何恺明博士的新论文 MAE 就研究了这个问题；
最后是更大规模的 ViT，半年之后作者团队就提出了 ViT-G。

ViT模型、实验

下面是 ViT模型介绍，模型总览图如下图所示。输入为一张图片，将图片划分成9个 patch，划分后的 patch 序列经过线性投射层变换得到 patch embedding ，与此同时对这些 patch 还添加了 position embedding，这样每一个 token 既包括图像信息又包括了位置信息。这里还借鉴了 BERT ，添加了 class embedding ，也包括位置信息，最终将这些 token 输入到 Transformer，最后 class embedding 对应的输出经过 MLP Head 进行类别判断，整个模型包括 L 个 Transformer。

下面是具体实现，假设图像大小是 224 × 224 × 3 ，划分成 16 × 16 × 3 的 patch，则最终会有196个 patch。将每一个 patch 拉平，则每一个 patch 维度变为 768。线性投射层使用 E 表示，维度为 768 × 768 （ D ），D 是参数。则经过线性变换后输出为： X E = 196 × 768 ，输出为196个 token，每个 token 维度为768。因为还有一个 class token，位置编码维度为 1 × 768 ，和 patch embedding直接相加（sum），则最终输入维度为 197 × 768 。（一句话就是将嵌入层的数据直接和经过位置编码的数据进行相加，并且保持维度一样）

首先是 patch embedding 的处理，然后是 class embedding 的处理，最后是 position embedding 的处理。在附录里作者比较了各种 position embedding 的实验结果，以及 class token 的使用对最终分类结果的影响。为了减少对 Transformer 的改动，作者这里还是使用了 class token 和 1D position embedding。