包含self-attention和卷积在内的分类架构

在摘要中作者指出以往的设计并没有统一结构,如果把以往的spatial token mixer加入uninext,准确率结果的排名会发生变化,不同的结构可能会造成比较结果的差异。

我对“以往的设计并没有统一结构”保留意见,我记得在metaformer的后续论文中有一篇关于统一结构的文章,并比较了不同spatial token mixer的差异,等我找到了插个链接。UniFormer: Unifying Convolution and Self-attention for Visual Recognition这篇,有代码

uninext的整体结构如下,金字塔结构和stem部分没什么特别的,EC和HdC应该是本篇文章的核心,PC部分标蓝了没有展开,个人觉得应该是地方不够了吧,不过后文作者也展开了。

EC(Embedded Convolution)嵌入式卷积动机有两个主要方面。首先,它增强了模型的归纳偏差,这对于学习和泛化至关重要。其次,EC 与所有令牌混合器兼容,提供了跨各种架构的灵活性和易于实现。对于注意力,直接在值上执行深度卷积,而不是在窗口转换之后,使其普遍适用于所有类型的注意力。。。。。不知道这个注意力跟以往的注意力有什么区别,后文说了在比较的时候不使用额外的绝对位置编码或相对位置编码,只使用最普通的自注意力,现在卷积和注意力同时使用都不使用位置编码了,作者也做了实验,不加就能达到最佳效果

HdC(High-dimensional Convolution)高维卷积,作者从其他研究中发现在MLP中添加一个轻量级的3×3深度卷积可以提高性能,并继承和扩展了这种卷积嵌入机制。首先,使用 MLP 的第一个线性层映射特征维度以获得高维特征 F。然后使用 3×3 深度卷积进行空间局部融合来编码高维隐式特征,从而提高效率。。。。。真是语言的艺术,学会了放文章里。这不就是普通的FFN层只进行了通道扩张四倍再缩放回去,这加了个dw卷积就变成新东西了,想贴代码,还没出来,比较好奇这个dw卷积换成普通卷积会不会也有效果

  ‘VIT的FFN’


self.net=nn.Sequential(
            nn.Linear(dim,hidden_dim),
            nn.GELU(),
            nn.Dropout(dropout),
            nn.Linear(hidden_dim,dim),
            nn.Dropout(dropout)
        )

PC(Post Convolution)后卷积也是一个dw卷积,在FFN后边又加了一个卷积。

这篇文章里我最感兴趣的图是这张,虽然其他文章里也有描述感受野的图片,不过那种集中在相关性,好奇这种图片怎么作

不知道这篇文章最大的亮点在哪里,觉得没有什么新颖之处,不过还是很有启发性的,它真的有在认真指导我怎么集成现有的工作,组装灌水成新工作。

GitHub 加速计划 / vi / vision
15.85 K
6.89 K
下载
pytorch/vision: 一个基于 PyTorch 的计算机视觉库,提供了各种计算机视觉算法和工具,适合用于实现计算机视觉应用程序。
最近提交(Master分支:2 个月前 )
945bdad7 2 天前
f68bac9d 3 天前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐