1、目的

        用纯transformer结构的网络来进行图像分类任务

2、方法

        Vision Transformer (ViT)

        1)将图像划分为小patch

                x\epsilon \mathbb{R}^{H\times W\times C} -> x_{p}\epsilon \mathbb{R}^{N\times (P^{2}\cdot C)},其中N=HW/P^{2}

        2)patch embedding

                用trainable linear projection将patch展平为D维向量

        3)classification head

                MLP:one hidden layer (pre-training time), single linear layer (fine-tuning time)

        4)position embedding

                和patch embedding相加,作为网络输入

                learnable 1D; 2D-aware 对结果无提升

        5)Transformer encoder

                multiheaded self-attention (MSA)

        6)hybrid architecture

                除了用raw image patches,还可以用CNN提取的feature map

        7)fine-tuning

                去除pre-trained prediciton head,连接一个0初始化的D\times K前传层(K是downstream类别数)

                对于higher resolution图像,保持patch size不变,增加sequence长度;对pre-trained position embedding进行2D插值

3、结论

        1)inductive bias

                CNN每一个卷积层天然包含了一些归纳偏置信息:二维局部相邻信息;平移不变性

                而ViT的归纳偏置信息则较弱。MLP层是局部和平移不变的,而self-attention层则是全局的,初始position embedding不包含2D位置信息,不同patch之间的空间关联需要learn from scratch

        2)在中型数据集上,ViT的表现不如ResNet,但在大数据集上预训练之后再迁移到小数据集上,ViT表现最佳

GitHub 加速计划 / tra / transformers
62
5
下载
huggingface/transformers: 是一个基于 Python 的自然语言处理库,它使用了 PostgreSQL 数据库存储数据。适合用于自然语言处理任务的开发和实现,特别是对于需要使用 Python 和 PostgreSQL 数据库的场景。特点是自然语言处理库、Python、PostgreSQL 数据库。
最近提交(Master分支:4 个月前 )
94fe0b91 * Improved Documentation Of Audio Classification * Updated documentation as per review * Updated audio_classification.md * Update audio_classification.md 1 天前
c96cc039 * Improve modular transformers documentation - Adds hints to general contribution guides - Lists which utils scripts are available to generate single-files from modular files and check their content * Show commands in copyable code cells --------- Co-authored-by: Joel Koch <joel@bitcrowd.net> 1 天前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐