ViT(Vision Transformer)学习

我是一颗棒棒糖

1330人浏览 · 2021-07-01 15:45:11

我是一颗棒棒糖 · 2021-07-01 15:45:11 发布

ViT(Vison Transformer)学习

Paper:An image is worth 16×16 words: transformers for image recognition at scale. In ICLR, 2021.

Transformer 在 NLP领域大放异彩，并且随着模型和数据集的不断增长，仍然没有表现出饱和的迹象。这使得使用更大规模的数据对Transformer结构进行训练得到表现更优的模型成为了一种解决问题的方案。受 NLP 中 Transformer 成功的启发，作者尝试将标准 Transformer 直接应用于图像，并进行尽可能少的修改。为此，作者将图像拆分为补丁，并提供这些补丁的线性嵌入序列作为 Transformer 的输入。在 NLP 应用程序中，图像补丁的处理方式与标记（单词）相同。并以监督方式训练图像分类模型。

模型概述

主要流程如下：

将图像分割成固定大小的块，作为三维张量
将三维张量向量化为一维序列
对一维序列采用共享参数的Dense层进行嵌入
将线形层输出结果进行位置嵌入编码，输入给多层Transformer叠加的 Transformer Encoder 进行编码
对编码结果进行 Softmax，以输出作为分类矩阵

张量向量化

将分割的图像块张量扁平化为向量

对向量进行嵌入

采用Dense层对向量进行嵌入

同时，所有的 Dense 层共享参数信息

对 embedding 进行位置编码

即对位置信息进行编码并与 embedding 进行加和

使用Transformer Encoder 进行处理

将编码结果输入多层堆叠的 Transformer，并最终使用 [CLS] 的输出作为分类结果

大数据集预训练

模型在大规模数据集上进行预训练，在目标数据集上进行 finetuning ,并最终在目标数据集的测试集上进行测试

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m