Transformer vs Mamba，谁更适合红外超分？NTIRE 2026第四名方案：两个都上，加权融合

Wedream

421人浏览 · 2026-05-07 22:09:10

__Wedream__ · 2026-05-07 22:09:10 发布

NTIRE 2026 Challenge on Remote Sensing Infrared Image Super-Resolution第四名方案解读

论文：The First Challenge on Remote Sensing Infrared Image Super-Resolution at NTIRE 2026: Benchmark Results and Method Overview
论文链接：https://arxiv.org/html/2604.21312v1
代码链接：https://github.com/Kai-Liu001/NTIRE2026_infraredSR

一. 简介

NTIRE 的全称为New Trends in Image Restoration and Enhancement Challenges，即“图像复原和复原挑战中的新趋势”，是CVPR(IEEE Conference on Computer Vision and Pattern Recognition)举办的极具影响力的计算机视觉底层任务比赛，主要涉及的研究方向有：图像超分辨率、图像去噪、去模糊、去摩尔纹、重建和去雾等。

其中在2026年，CVPR开展的NTIRE相关挑战有：

夜间图像去雾（NightTime Image Dehazing）；
图像阴影去除（Image Shadow Removal）；
3D内容超分辨率重建（3D Content Super-Resolution）；
光场图像超分（Light Field Image Super-Resolution）；
低光图像增强（Low Light Image Enhancement）；
图像去噪（Image Denoising）；
4倍图像超分辨率重建（Image Super-Resolution (x4)）；
遥感红外图像超分辨率重建（Remote Sensing Infrared Image Super-Resolution）；
高效超分辨率重建（Efficient Super-Resolution）；
3D内容复原和重建（3D Restoration and Reconstruction）；
高效真实世界去模糊（Efficient Real-World Deblurring ）。

同时，以上的这些挑战也蕴含着当前的一些研究难点及挑战，需要研究学者们集思广益，提出针对提升任务性能的想法，为共同解决近年来的难题贡献出一份力量。

本篇文章着重于NTIRE 2026 遥感红外图像超分辨率重建（Remote Sensing Infrared Image Super-Resolution） 挑战赛殿军队伍方案的解读，总结报告中能够提升任务的tricks，以期给相关的科研任务一些启发。

二、红外遥感超分比赛情况

共有 115名参与者注册参加比赛，13 个团队成绩有效。各个队伍的成绩及排名如下：

综合各个指标（PSNR/SSIM/LPIPS等）的判定标准下，几个有特色的队伍成绩如下：

排名	队伍	综合得分依据	方案关键词
1	WHU-VIP	PSNR 第 1 + SSIM 第 1	Quality-Aware、HAT、SatVideoIRSDT
2	XJRes	PSNR 第 2 + SSIM 第 2	PFT、HAT、model ensemble、self-ensemble
3	FengFans	PSNR 第 4 + SSIM 第 2	HAT、model ensemble、self-ensemble
4	I2WM&JNU	PSNR 第 3 + SSIM 第 5	HAT、Mamba、model ensemble、self-ensemble
5	davinci	PSNR 第 5 + SSIM 第 4	HAT、Mona

亮点：前5名之间的差距已经非常小，PSNR差距在0.15 dB以内，都有使用HAT模型，说明Transformer-based 超分模型依然是主力。这很好理解，红外图像虽然纹理弱，但它在更大尺度上往往存在比较稳定的热分布模式与区域结构关系。Transformer 擅长建模长距离依赖，因此特别适合处理这种“局部纹理不足、全局结构重要”的视觉任务。

题外话：笔者觉得部分队伍的名字非常熟悉，仔细一看，XJRes原来是NTIRE 2026 Challenge on Nighttime Image Dehazing赛道的亚军队伍； I2WM&JNU是NTIRE 2026 Challenge on Image Super-Resolution (x4) 赛道的亚军队伍，也是NTIRE 2026 Challenge on Image Denoising赛道的亚军队伍。以上队伍实力强劲，在多个赛道都是佼佼者，salute！

三、数据集介绍

本次挑战赛使用了官方提供的 InfraredSR数据集，所有低分辨率（LR）图像均由高分辨率（HR）红外图像经过4倍双三次下采样生成。数据集一共包含 1341 对 LR/HR 图像，其中包含1019对训练集，100对验证集，222对测试集。如下图展示，InfraredSR 数据集覆盖了多种典型红外遥感场景，包含不同地面覆盖类型、建筑物分布及地形特征，具有较好的代表性与多样性。

评价指标：所有参赛队伍按照综合图像质量评估（IQA）得分进行排名，该分数通过将选手重建的高分辨率图像与测试集中的真实高分辨率图像（Ground Truth，GT）进行比较计算得出。官方 IQA 计分公式为：
$\times SSIM$

四、第四名方案解读

第四名队伍I2WM&JNU针对遥感红外图像超分任务，采用了一种异构模型集成的方法。与季军方案采用同架构差异训练不同，I2WM&JNU的核心思路是：通过两个架构完全不同的模型——HAT-L（Transformer）和MambaIRv2-L（状态空间模型），独立训练后，在推理阶段分别应用差异化增强策略，最后通过加权融合得到最终结果。两个模型分别捕捉不同类型的上下文信息：HAT-L擅长建模长距离依赖和全局结构，MambaIRv2-L则在线性复杂度下高效捕捉长程上下文信息。两者的预测结果互补，加权融合后能够获得更优的重建质量。最终，该方案在13支参赛队伍中位列第4名。I2WM&JNU的流程图如下所示，该框架的核心设计如下：

异构双模型：分别采用HAT-L（混合注意力Transformer）和MambaIRv2-L（状态空间模型），两种架构捕获互补的上下文信息；
差异化推理增强：对HAT-L使用测试时局部转换器（Test-time Local Converter, TLC）进行局部细节优化，并使用自集成策略；对MambaIRv2-L使用自集成策略进行预测增强；
模型融合：两个模型的输出通过加权平均策略融合，自适应地结合两者的优势。

1. HAT-L模型架构

I2WM&JNU采用**HAT-L（Hybrid Attention Transformer - Large）**作为其中一个基础模型。HAT在标准窗口自注意力的基础上，引入了两个有效的机制：

重叠交叉注意力（Overlapping Cross-Attention, OCA）：相邻窗口共享键值区域，允许跨窗口边界进行信息交换，避免了全局注意力的二次计算开销；
通道注意力块（Channel Attention Block, CAB）：在每个Transformer块中集成的压缩-激励风格模块，用于重新校准通道维度的特征响应，提升表示能力。

HAT-L的Large变体堆叠了12个残差混合注意力组（Residual Hybrid Attention Group, RHAG），每个RHAG包含6个混合注意力块（Hybrid Attention Block, HAB）。

训练配置：使用AdamW优化器，初始学习率5×10−65×10−6，在迭代次数[125K, 200K, 225K, 240K]处学习率减半，总训练260K迭代。批大小为4，窗口大小为32，图块大小为256×256。采用L1损失函数。

推理增强：对HAT-L使用**测试时局部转换器（Test-time Local Converter, TLC）**技术，用于优化局部细节重建。

2. MambaIRv2-L模型架构

I2WM&JNU采用MambaIRv2-L作为另一个基础模型。MambaIRv2基于状态空间模型（State Space Model, SSM），具有线性时间复杂度，能够高效捕捉长程上下文信息，特别适合处理红外图像中平滑、全局分布的空间相关性。

训练配置：使用Adam优化器，初始学习率5×10−55×10−5，在迭代次数[125K, 200K, 225K, 237K]处学习率减半，总训练250K迭代。批大小为4，窗口大小为16，图块大小为192×192。采用L1损失函数。

推理增强：对MambaIRv2-L使用自集成策略，通过对输入图像进行几何变换（如旋转、翻转），将多个变换后的预测结果反向变换后平均，提升预测的稳定性和精度。

3. 加权模型融合

在获得两个模型的输出后，I2WM&JNU采用加权平均融合策略生成最终的超分辨率图像。融合权重通过自适应方式确定，以平衡两个异构模型的优势。

在两个模型独立训练后，推理阶段通过加权融合联合两者的预测结果。设HAT-L的输出为 $I_{SR}^{HAT}$ ，MambaIRv2-L的输出为 $I_{SR}^{MambaIR}$ ，则最终结果为：
$\hat{I}_{\text{SR}} = \alpha I_{SR}^{HAT} + (1 - \alpha) I_{SR}^{MambaIR}, \quad \alpha = 0.50$
其中 $\alpha$ 为可调节的融合权重，用于平衡两个模型的贡献。

4. 训练策略细节

数据集：使用官方提供的1019对HR/LR训练数据，未引入额外数据集。

训练硬件：单张NVIDIA H200 GPU。

HAT-L训练配置：

优化器：AdamW（β1=0.9，β2=0.9）
初始学习率：5e-6
学习率调度：在[125K, 200K, 225K, 240K]迭代时减半
训练迭代次数：260K
batch size：4
window size：32
patch size：256×256
损失函数：L1损失

MambaIRv2-L训练配置：

优化器：Adam（β1=0.9，β2=0.9）
初始学习率：5e-5
学习率调度：在[125K, 200K, 225K, 237K]迭代时减半
训练迭代次数：250K
batch size：4
window size：16
patch size：192×192
损失函数：L1损失

五、总结

I2WM&JNU的方案提供了一个有价值的思路：在资源允许的情况下，使用架构差异足够大的异构模型进行集成，往往能获得比单一模型更优的重建效果。HAT擅长捕捉全局结构，MambaIRv2擅长高效长程建模，两者互补。加之差异化的推理增强策略（TLC vs 自集成），进一步放大了这种互补性。这项工作的核心启示在于：异构模型集成与差异化推理增强，是提升超分性能的有效手段。

最后感谢小伙伴们的学习噢~