【NeurIPS2022】Fast Vision Transformers with HiLo Attention
vision
pytorch/vision: 一个基于 PyTorch 的计算机视觉库,提供了各种计算机视觉算法和工具,适合用于实现计算机视觉应用程序。
项目地址:https://gitcode.com/gh_mirrors/vi/vision
免费下载资源
·
这个论文的核心贡献是提出了一种新的注意力机制 HiLo(High / Low frequency)。如下图所示,在上面部分,分配了 1 − α 1-\alpha 1−α 比例的 head 用于提取高频注意力,下面分配了 α \alpha α 比例的 head 用于提取低频注意力。
高频注意力: 在2x2的窗口中计算 attention。
低频注意力: 将2x2的窗口池化,得到的特征做为 K 和 V。原始特征做为 Q,再计算注意力。(基本上和 PVT 中的计算方法一样)。因为 KV 特征维度减少,计算效率显著提升。
论文中还使用了一个 trick,使用 3x3 的 depth-wise conv 替换位置编码,这样不仅能引入 positional encoding,还能够增大网络前期的感受野。
GitHub 加速计划 / vi / vision
15.85 K
6.89 K
下载
pytorch/vision: 一个基于 PyTorch 的计算机视觉库,提供了各种计算机视觉算法和工具,适合用于实现计算机视觉应用程序。
最近提交(Master分支:3 个月前 )
518ee93d
14 天前
7d077f13
16 天前
更多推荐
已为社区贡献2条内容
所有评论(0)