基于 Transformer 的底层视觉骨干网络

Azusa309

357人浏览 · 2026-03-17 20:43:11

Azusa309 · 2026-03-17 20:43:11 发布

引言

Transformer架构自2017年提出以来，在自然语言处理领域取得突破性进展，随后被成功引入计算机视觉任务并展现强大能力。本文就SwinIR、Restormer、HAT等相关论文（持续更新~）为主线，整理一些基于Transformer的底层视觉骨干网络。

这类模型采用"通用特征提取 + 任务特定重建"的模块化架构：Transformer模块负责在特征空间学习长程依赖与内容感知表示，而输入输出分辨率的变化、退化类型的差异则通过可替换的重建头、损失函数等灵活适配。这一设计使得同一骨干网络能够跨越图像超分辨率、去噪、去模糊、去雨等多个底层视觉任务，展现出强大的通用性与可扩展性。

SwinIR

动机

1. 针对CNN：

图像与卷积核之间的交互关系与图像内容无关，使用相同的卷积核对不同的图像区域进行复原处理，并非最优选择。并且，卷积遵循局部处理的原则，难以对图像的长距离依赖关系进行有效建模。

2. 针对VIT分块处理图像（用于缓解Transformer计算复杂度）的方式：

图像块边缘的像素无法利用块外的相邻像素完成图像复原；并且，复原后的图像会在各图像块的边缘处产生边界伪影。

3. Swin Transformer 因融合了CNN 与 Transformer 二者的优势，展现出了极佳的应用前景。于是提出一种基于 Swin Transformer 的图像复原模型，将其命名为 SwinIR。

做法

Overview

分三个模块：浅层特征提取模块、深层特征提取模块和高质量图像重建模块。

浅层特征提取：仅用一个卷积层。（由输入H×W×3的图像得到H×W×C的浅层特征）

深层特征提取：K个residual Swin Transformer blocks (RSTB)，最后加一个卷积层。（由H×W×C的浅层特征得到H×W×C的深层特征）

高质量图像重建：融合深、浅特征后，（两者相加得到H×W×C的深浅特征）利用像素重排重建图像得到输出H×W×3的图像）

核心深层特征提取单元 residual Swin Transformer blocks (RST B)

1. 堆叠 L 层 Swin Transformer 层（STL） + 1 层 3×3 卷积 + 残差连接

2. Swin Transformer 层（STL）

2.1 层归一化

2.2 MSA

（1）窗口划分：将 H×W×C 的特征图划分为若干个固定大小的非重叠窗口（如 8×8），仅在窗口内计算自注意力。

目的：全局自注意力的计算复杂度是 O(HW)2，窗口化后降为 O((HW/M2)⋅M4)=O(HWM2)（M 为窗口大小），大幅降低计算量；图像复原的核心是「局部细节修复」（如超分的纹理、去噪的像素级修正），窗口化能聚焦局部特征，避免全局计算的冗余。

（2）移位窗口：相邻 STL 层交替使用「常规窗口」和「移位窗口」（窗口整体偏移 M/2 像素）目的：解决固定窗口间无信息交互的问题，固定窗口会导致「窗口边界伪影」（复原后图像出现网格状分割），移位窗口让相邻层的窗口重叠，实现跨窗口信息流通；

2.3 MLP

采用一个多层感知机（MLP）进行进一步的特征变换，该感知机包含两个全连接层，层之间使用 GELU 非线性激活函数。

目的：引入非线性表达能力，自注意力是线性操作，无法拟合复杂映射。MLP + GELU 提供非线性，让模型学会复杂的纹理、边缘、细节恢复；

自注意力只在空间维度做交互（像素之间），MLP 在通道维度做融合（特征之间）

评价

核心模块来自于SwinTransformer，创新度好像少了一点。是一个简单高效的 “应用创新” 论文，把 Swin Transformer 成功落地到底层视觉，为后续大量 Transformer-based 底层图像工作打下基础。

Restormer

动机

将图像分块来减少Transformer计算复杂度的操作：是限制自注意力的空间作用范围，这与建模真实长程像素依赖关系的目标相矛盾。（SwinIR通过移位窗口，可以逐渐传递信息）

核心仍然是Transformer长程依赖能力和计算复杂度的trade-off

.....于是提出了Restormer，核心模块是多深度卷积头转置注意力（MDTA）和门控深度卷积前馈网络（GDFN）

做法

Overview

整体分为三部分：浅层特征提取、多尺度编码器 - 解码器深层特征提取、高分辨率细化与图像重建。

浅层特征提取：用一个卷积层将退化图像映射为浅层特征，保留基础纹理与边缘信息。

深层特征提取：4 级对称编码器 - 解码器结构，每级由多个 Restormer 基础 Transformer 块构成；下采样用 pixel-unshuffle，上采样用 pixel-shuffle；编码器与解码器间通过跳跃连接融合多尺度特征。

高分辨率重建：深层特征经细化模块增强后，用卷积输出残差图像，与输入图像相加得到最终清晰图像。

核心 Transformer 块（Restormer Block）

由两个关键创新模块组成：MDTA + GDFN，配合层归一化与残差连接。

1. MDTA: Multi-Dconv Head Transposed Attention

首先是一个1*1卷积，融合跨通道信息；然后用3*3深度卷积在通道级上融合空间信息；由此得到Q,K,V。

传统的Transformer是Q乘K的转置，然后除后softmax：输出HW*HW的空间上的注意力分数矩阵；现在是用K乘Q然后除可学习的alpha后softmax：输出C*C的通道注意力图了。

然后计算通道间的关联度：V乘通道注意力图，最后1*1卷积进一步通道融合并残差输出。

2. Gated-Dconv Feed-Forward Network

核心就是： “给特征加个开关”：通过两个并行分支的逐元素乘积（⊙），让模型自主决定 “哪些特征该保留、哪些该抑制”扩展维度后逐元素相乘。这种能力来自于一个有GeLU，而一个没有。

评价

Restormer 是2020CVPR oral，含金量很高。Restormer 不依赖窗口 / 分块，直接在通道维度做轻量化自注意力，创新度高，解决高分辨率下 Transformer 复杂度爆炸问题。它是面向底层视觉的原生高效 Transformer 设计，在去雨、去模糊、去噪等任务上全面 SOTA，效率与效果双优，为无窗口、高分辨率 Transformer 复原模型提供全新范式。

HAT

动机

针对SwinIR提出疑问：是否真正利用了Transformer的长局建模能力？

通过局部归因图（LAM）发现SwinIR利用的信息不比CNN多：（红色代表利用到的信息，这种方法源自于论文Interpreting Super-Resolution Networks with Local Attribution Maps这篇论文提出的方法）

因此他们认为，SwinIR 的性能优势源于其相比 CNN 更强的局部信息建模能力。

于是提出混合注意力Transformer：融合了通道注意力与自注意力两种机制，以此充分发挥通道注意力对全局信息的捕捉能力，以及自注意力强大的特征表征能力；此外，还引入了重叠交叉注意力模块，实现相邻窗口特征更直接的信息交互。

做法

Overview

三个部分组成：浅层特征提取、深层特征提取和图像重建三部分构成。

浅层特征提取：其中：，。浅层特征提取模块可将输入从低维空间映射至高维空间，同时实现对每个像素特征令牌的高维嵌入。此外，网络前向的卷积层有助于模型学习更优质的视觉特征表征，并能提升模型优化过程的稳定性。

深层特征提取：，由N1个残差混合注意力组（RHAG）和一个 3×3 卷积层组成。

图像重建：，使用全局残差连接以融合浅层特征与深层特征，再通过重建模块还原出高质量图像。

核心RHAG块：

由HAB和OCAB组成：

1. Hybrid Attention Block (HAB)：混合注意力块

并行作用标准的通道注意力块（CAB）与多头自注意力（MSA），并用alpha加权。

（CAB：Image Super-Resolution Using Very Deep Residual Channel Attention Networks）

（MSA：SwinIR）

2. Overlapping Cross-Attention Block (OCAB)：重叠交叉注意力块

核心在于OCA：查询用小窗口，键 / 值用更大的重叠窗口，让每个查询能看到更多上下文。每个查询都能 “看到” 更大范围的信息，直接实现跨窗口交互：

维度变换不会出现问题，只是注意力图不是正方形的了：

预训练策略

预训练已被证明在许多高层视觉任务中是有效的。

IPT 强调利用多种低阶任务（如去噪、去雨、超分辨率等）进行预训练，

EDT 则采用特定任务的不同退化等级来开展预训练。

这些工作主要探究多任务预训练对目标任务的效果。与之不同，我们基于同一任务在更大规模的数据集（即 ImageNet [84]）上直接进行预训练，结果表明预训练的效果更多地取决于数据的规模与多样性。例如，当我们需要训练一个 4 倍超分辨率模型时，首先在 ImageNet 上训练一个 4 倍超分辨率模型，随后在特定数据集（如 DF2K）上进行微调。我们提出的这一策略，即同任务预训练，更为简洁，同时能带来更显著的性能提升。

其中，IPT：[18] H. Chen, Y. Wang, T. Guo, C. Xu, Y. Deng, Z. Liu, S. Ma, C. Xu, C. Xu, and W. Gao, “Pre-trained image processing transformer,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), 2021, pp. 12 299–12 310.

EDT：[21] W. Li, X. Lu, S. Qian, and J. Lu, “On efficient transformer-based image pre-training for low-level vision,” in Proc. Int. Joint Conf. Artif. Intell., 2023, pp. 1089–1097.