声明:

本人是来自 γ 星球的外星人

为了学习地球的深度学习知识的,好回去建设自己的家乡

每周不定期更新自己的论文精读笔记,中心思想是两个字 --- 易懂

没啥事的兄弟姐妹们,可以和我探讨外星知识哦~​​​​​​​


 论文题目:

LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference

LeViT:ConvNet 中用于更快推理的 Vision Transformer

论文链接:https://arxiv.org/abs/2104.01136

论文代码:http://https: //github.com/facebookresearch/LeViT

发表时间:2021年5月


Abstract

我们设计了一系列图像分类架构,可优化高速状态下准确性和效率之间的权衡。我们的工作利用了基于注意力的架构的最新发现,这些架构在高度并行的处理硬件上具有竞争力。我们从关于卷积神经网络的大量文献中重新审视原理,将它们应用于 Transformer,特别是分辨率降低的激活图。我们还介绍了注意力偏差,这是一种在 Vision Transformer 中集成位置信息的新方法。

因此,我们提出了 LeVIT:一种用于快速推理图像分类的混合神经网络。我们在不同的硬件平台上考虑不同的效率度量,以最好地反映广泛的应用场景。我们广泛的实验凭经验验证了我们的技术选择,并表明它们适用于大多数架构。总体而言,LeViT 在速度、准确性权衡方面明显优于现有的卷积网络和 Vision Transformer。例如,在 ImageNet top-1 准确率为 80% 时,LeViT 在 CPU 上比 EfficientNet 快 5 倍。 


Method

LeViT-256 架构的框图。右侧的两个条形表示每层的相对资源消耗(以 FLOP 为单位)和参数数量。

框架很好理解,本质上,使用卷积(ResNet的结构),替代了 Vision Transformer 的编码部分

编码部分作者使用了 4 层 3*3 卷积(步长 2)来执行的,这样的好处减少了输入到 Transformer 中较低层的激活图,而不失去显著信息。

这里说实话,没啥可介绍的,如果对 Vision Transformer 的发展史不太了解,第一次看相关论文的话,可能有点懵,如果大致了解 16*16 的 ViT 的话,这个真没什么可说的,很简单的改进

如果想从头了解一下,大家可以看一下我之前的论文精度,大概用半天时间差不多了,因为 ViT 这个方法也才是 2020 年尾,开始兴起的,正在处于发展阶段!


Experiments

实验目标:LeViT的模型架构

实验目标:LeViT、DeiT、EfficientNet 准确性对比

实验结果:效果持平吧,高一点点


写在最后

作者原文还有很多地方的改进,比如 MLP 的改进等,首先因为不是必要部分,所以并没有展示;其次代码都是开源的,我们可以直接跑,类似 MLP 这种改进,不需要精通,读懂框架结构是最重要的,因为随时深度学习的进步,大部分都是封装,所以自己会搭框架很重要,跑程序其实不难。

如果你是学术型高校(北大清华)那有必要深度了解,你是应用型高校,是没有必要的,

至于,下载代码后,如何跑代码,我以后会出一篇博客,给大家详细讲解,大厂的代码,一般都是封装好的,很简洁的直接应用就可以,等有空给大家专门出一篇!!!

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐