【论文笔记】LeViT: a Vision Transformer in ConvNet’s Clothingfor Faster Inference
声明:
本人是来自 γ 星球的外星人
为了学习地球的深度学习知识的,好回去建设自己的家乡
每周不定期更新自己的论文精读笔记,中心思想是两个字 --- 易懂
没啥事的兄弟姐妹们,可以和我探讨外星知识哦~
论文题目:
LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference
LeViT:ConvNet 中用于更快推理的 Vision Transformer
论文链接:https://arxiv.org/abs/2104.01136
论文代码:http://https: //github.com/facebookresearch/LeViT
发表时间:2021年5月
Abstract
我们设计了一系列图像分类架构,可优化高速状态下准确性和效率之间的权衡。我们的工作利用了基于注意力的架构的最新发现,这些架构在高度并行的处理硬件上具有竞争力。我们从关于卷积神经网络的大量文献中重新审视原理,将它们应用于 Transformer,特别是分辨率降低的激活图。我们还介绍了注意力偏差,这是一种在 Vision Transformer 中集成位置信息的新方法。
因此,我们提出了 LeVIT:一种用于快速推理图像分类的混合神经网络。我们在不同的硬件平台上考虑不同的效率度量,以最好地反映广泛的应用场景。我们广泛的实验凭经验验证了我们的技术选择,并表明它们适用于大多数架构。总体而言,LeViT 在速度、准确性权衡方面明显优于现有的卷积网络和 Vision Transformer。例如,在 ImageNet top-1 准确率为 80% 时,LeViT 在 CPU 上比 EfficientNet 快 5 倍。
Method
LeViT-256 架构的框图。右侧的两个条形表示每层的相对资源消耗(以 FLOP 为单位)和参数数量。
框架很好理解,本质上,使用卷积(ResNet的结构),替代了 Vision Transformer 的编码部分
编码部分作者使用了 4 层 3*3 卷积(步长 2)来执行的,这样的好处减少了输入到 Transformer 中较低层的激活图,而不失去显著信息。
这里说实话,没啥可介绍的,如果对 Vision Transformer 的发展史不太了解,第一次看相关论文的话,可能有点懵,如果大致了解 16*16 的 ViT 的话,这个真没什么可说的,很简单的改进
如果想从头了解一下,大家可以看一下我之前的论文精度,大概用半天时间差不多了,因为 ViT 这个方法也才是 2020 年尾,开始兴起的,正在处于发展阶段!
Experiments
实验目标:LeViT的模型架构
实验目标:LeViT、DeiT、EfficientNet 准确性对比
实验结果:效果持平吧,高一点点
写在最后
作者原文还有很多地方的改进,比如 MLP 的改进等,首先因为不是必要部分,所以并没有展示;其次代码都是开源的,我们可以直接跑,类似 MLP 这种改进,不需要精通,读懂框架结构是最重要的,因为随时深度学习的进步,大部分都是封装,所以自己会搭框架很重要,跑程序其实不难。
如果你是学术型高校(北大清华)那有必要深度了解,你是应用型高校,是没有必要的,
至于,下载代码后,如何跑代码,我以后会出一篇博客,给大家详细讲解,大厂的代码,一般都是封装好的,很简洁的直接应用就可以,等有空给大家专门出一篇!!!
更多推荐
所有评论(0)