单模型打不过，那就上四个！NTIRE 2026遥感红外超分亚军方案：PFT+HAT异构集成

Wedream

450人浏览 · 2026-05-05 14:46:43

__Wedream__ · 2026-05-05 14:46:43 发布

NTIRE 2026 Challenge on Remote Sensing Infrared Image Super-Resolution亚军方案解读

论文：The First Challenge on Remote Sensing Infrared Image Super-Resolution at NTIRE 2026: Benchmark Results and Method Overview
论文链接：https://arxiv.org/html/2604.21312v1
代码链接：https://github.com/Kai-Liu001/NTIRE2026_infraredSR

一. 简介

NTIRE 的全称为New Trends in Image Restoration and Enhancement Challenges，即“图像复原和复原挑战中的新趋势”，是CVPR(IEEE Conference on Computer Vision and Pattern Recognition)举办的极具影响力的计算机视觉底层任务比赛，主要涉及的研究方向有：图像超分辨率、图像去噪、去模糊、去摩尔纹、重建和去雾等。

其中在2026年，CVPR开展的NTIRE相关挑战有：

夜间图像去雾（NightTime Image Dehazing）；
图像阴影去除（Image Shadow Removal）；
3D内容超分辨率重建（3D Content Super-Resolution）；
光场图像超分（Light Field Image Super-Resolution）；
低光图像增强（Low Light Image Enhancement）；
图像去噪（Image Denoising）；
4倍图像超分辨率重建（Image Super-Resolution (x4)）；
遥感红外图像超分辨率重建（Remote Sensing Infrared Image Super-Resolution）；
高效超分辨率重建（Efficient Super-Resolution）；
3D内容复原和重建（3D Restoration and Reconstruction）；
高效真实世界去模糊（Efficient Real-World Deblurring ）。

同时，以上的这些挑战也蕴含着当前的一些研究难点及挑战，需要研究学者们集思广益，提出针对提升任务性能的想法，为共同解决近年来的难题贡献出一份力量。

本篇文章着重于NTIRE 2026 遥感红外图像超分辨率重建（Remote Sensing Infrared Image Super-Resolution） 挑战赛亚军队伍方案的解读，总结报告中能够提升任务的tricks，以期给相关的科研任务一些启发。

二、红外遥感超分比赛情况

共有 115名参与者注册参加比赛，13 个团队成绩有效。各个队伍的成绩及排名如下：

综合各个指标（PSNR/SSIM/LPIPS等）的判定标准下，几个有特色的队伍成绩如下：

排名	队伍	综合得分依据	方案关键词
1	WHU-VIP	PSNR 第 1 + SSIM 第 1	Quality-Aware、HAT、SatVideoIRSDT
2	XJRes	PSNR 第 2 + SSIM 第 2	PFT、HAT、model ensemble、self-ensemble
3	FengFans	PSNR 第 4 + SSIM 第 2	HAT、model ensemble、self-ensemble
4	I2WM&JNU	PSNR 第 3 + SSIM 第 5	HAT、Mamba、model ensemble、self-ensemble
5	davinci	PSNR 第 5 + SSIM 第 4	HAT、Mona

亮点：前5名之间的差距已经非常小，PSNR差距在0.15 dB以内，都有使用HAT模型，说明Transformer-based 超分模型依然是主力。这很好理解，红外图像虽然纹理弱，但它在更大尺度上往往存在比较稳定的热分布模式与区域结构关系。Transformer 擅长建模长距离依赖，因此特别适合处理这种“局部纹理不足、全局结构重要”的视觉任务。

题外话：笔者觉得部分队伍的名字非常熟悉，仔细一看，XJRes原来是NTIRE 2026 Challenge on Nighttime Image Dehazing赛道的亚军队伍； I2WM&JNU是NTIRE 2026 Challenge on Image Super-Resolution (x4) 赛道的亚军队伍，也是NTIRE 2026 Challenge on Image Denoising赛道的亚军队伍。以上队伍实力强劲，在多个赛道都是佼佼者，salute！

三、数据集介绍

本次挑战赛使用了官方提供的 InfraredSR数据集，所有低分辨率（LR）图像均由高分辨率（HR）红外图像经过4倍双三次下采样生成。数据集一共包含 1341 对 LR/HR 图像，其总体分布与划分配置如下：

训练集：共计1019对，包含 5 种分辨率规格

320×256 分辨率图像 625 张（占比约 61.3%）
120×120 分辨率图像 281 张（占比约 27.6%）
64×64 分辨率图像 99 张（占比约 9.7%）
256×256 分辨率图像 9 张（占比约 0.9%）
160×128 分辨率图像 5 张（占比约 0.5%）

验证集：共计100对，分辨率分布与训练集高度相似，保证了验证过程的稳定性

320×256 分辨率图像 66 张
120×120 分辨率图像 20 张
64×64 分辨率图像 12 张
256×256 分辨率图像 1 张
160×128 分辨率图像 1 张

测试集：共计222对，用于最终排名评估

320×256 分辨率图像 188 张
120×120 分辨率图像 22 张
64×64 分辨率图像 12 张

Tips：从分布可看出，数据集以中小分辨率为主，其中 320×256 占据主导地位，占比超过 60%。这种多尺度、多分辨率的构成，对模型的多尺度特征提取能力提出了较高要求。

评价指标：所有参赛队伍按照综合图像质量评估（IQA）得分进行排名，该分数通过将选手重建的高分辨率图像与测试集中的真实高分辨率图像（Ground Truth，GT）进行比较计算得出。官方 IQA 计分公式为：
$\times SSIM$
如下图展示，InfraredSR 数据集覆盖了多种典型红外遥感场景，包含不同地面覆盖类型、建筑物分布及地形特征，具有较好的代表性与多样性。

四、亚军方案解读

亚军队伍XJRes针对红外遥感图像超分任务，提出了一种异构模型融合的框架。与冠军方案关注“HR图像质量异质性”不同，XJRes的核心思路是通过多个互补模型的集成来提升重建质量。该框架并行集成了四个分支：两个基于渐进聚焦Transformer（Progressive Focused Transformer, PFT）的分支，以及两个基于混合注意力Transformer（Hybrid Attention Transformer, HAT）的分支。四个分支独立训练（使用的损失函数略有不同），在推理时采用**自集成（self-ensemble）**策略，最后通过加权平均融合输出。最终，该方案在13支参赛队伍中位列第2名。XJRes的流程图如下所示，该框架的核心设计如下：

PFT分支（2个）：采用渐进聚焦注意力机制，通过跨层传递注意力图，逐步聚焦于重要token，实现高效的注意力聚合；
HAT分支（2个）：融合通道注意力和窗口自注意力，结合重叠交叉注意力模块增强跨窗口交互，捕捉局部纹理与全局依赖；
加权融合与自集成：四个分支在推理时通过自集成策略（旋转/翻转）增强预测稳定性，并最终输出加权平均结果。

1. PFT分支（Progressive Focused Transformer）

XJRes的前两个分支采用渐进聚焦Transformer（PFT）架构进行超分辨率重建。这两个分支使用相同的网络结构，但使用不同的目标函数独立训练，以捕获互补的特征表示。网络结构如下：

特征编码：给定低分辨率输入图像 $I_{LR}$ ，首先通过一个卷积层将其变换到高维特征表示 $F_0$ ，这一阶段主要提取基本的结构和纹理信息用于后续的特征学习。
渐进注意力表示学习：该分支的核心由多个渐进聚焦注意力块（Progressive Focused Attention Block, PFA Block）组成。每个渐进聚焦注意力块包含多个渐进聚焦注意力层（Progressive Focused Attention Layer, PFAL），其中注意力图在层间传播，逐步聚焦于重要token。通过注意力继承和稀疏选择，PFA机制增强高度相关的特征，同时抑制无关token，实现高效的特征聚合。
图像重建：在深度特征提取之后，细化的特征通过卷积层和上采样模块，生成超分辨率图像 $I_{SR}^{PFT}$ 。

训练差异：两个PFT分支分别采用RBSFormer损失和L1损失进行独立训练，使它们学习到互补的特征表示。其中，RBSFormer损失由内容损失 $L_{content}$ 和频域损失 $L_{frequency}$ 构成：
$\mathcal{L}_{\text{content}} = \sqrt{ \| \hat{I}_{\text{HR}} - I_{\text{HR}} \|_2^2 + \epsilon^2 },$

$\mathcal{L}_{\text{frequency}} = \left\| \mathcal{F}(\hat{I}_{\text{HR}}) - \mathcal{F}(I_{\text{HR}}) \right\|_1, \\$

$\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{content}} + \lambda \mathcal{L}_{\text{frequency}}$

其中 $\lambda$ 表示不同损失的加权系数，默认值为0.5。

2. HAT分支（Hybrid Attention Transformer）

后两个分支基于混合注意力Transformer（HAT）架构。与PFT分支类似，这两个HAT分支也使用相同的网络结构，但使用不同的目标函数独立训练。HAT模型融合了通道注意力和窗口自注意力，以增强特征表示能力。网络结构如下：

浅层特征提取：输入图像 $I_{LR}$ 首先通过一个3×3卷积层，将图像映射到更高维的特征空间，获得浅层特征 $F_0$ 。
深度特征提取：该阶段包含多个残差混合注意力组（Residual Hybrid Attention Group, RHAG），每个残差混合注意力组由多个**混合注意力块（Hybrid Attention Block, HAB）和一个重叠交叉注意力块（Overlapping Cross-Attention Block, OCAB）**组成。混合注意力块结合了窗口自注意力和通道注意力，捕捉局部纹理和全局依赖；重叠交叉注意力块则增强跨窗口交互，实现更有效的特征聚合。
图像重建：最后，通过一个卷积层和像素重排（PixelShuffle）操作，将深度特征上采样，生成超分辨率图像 $I_{SR}^{HAT}$ 。

训练差异：两个HAT分支分别采用RBSFormer损失和Charbonnier L1 + SSIM损失进行独立训练，以捕获互补的图像重建特征。

3. 自集成策略与加权融合

在推理阶段，XJRes还采用了自集成（self-ensemble）技术：通过对输入图像进行几何变换（如旋转、翻转），将多个变换后的预测结果反向变换后平均，进一步提升了重建的稳定性和精度。

在获得四个分支的输出后，XJRes采用加权平均融合策略生成最终的超分辨率图像。四个分支的融合权重相等，均为0.25：
$I_{SR}=0.25\times I_{SR}^{Branch1}+0.25\times I_{SR}^{Branch2}+0.25\times I_{SR}^{Branch3}+0.25\times I_{SR}^{Branch4}$
其中，前两个分支对应PFT模型，后两个分支对应HAT模型。

4. 训练策略

数据集：仅使用官方提供的1019对HR/LR训练数据，未引入额外数据集。

训练配置：

优化器：Adam
初始学习率：2e-4
学习率调度：余弦退火（Cosine Annealing）
训练轮数：200 epochs
Batch size：1
训练/推理精度：FP32
硬件：RTX 4090 GPU（PyTorch）

损失函数：

PFT分支：RBSFormer损失 / L1损失
HAT分支：RBSFormer损失 / Charbonnier L1 + SSIM损失

五、总结

在遥感红外图像超分任务中，不同模型架构各有所长，亚军队伍 XJRes 提出了一种异构模型集成的超分方法。该框架通过并行融合渐进聚焦Transformer（PFT） 和混合注意力Transformer（HAT） 两类超分模型，并采用独立训练与加权融合策略，让模型能够同时利用PFT的渐进注意力聚焦能力和HAT的混合注意力表达能力，从而在多个维度上提升重建质量。在训练策略上，该队伍不同分支设计了差异化的损失函数（RBSFormer损失、L1损失、Charbonnier L1损失、SSIM损失）。实验结果表明，XJRes在PSNR和SSIM两个关键指标上均排名第二，在13支参赛队伍中夺得亚军。这项工作的核心启示在于：模型集成与差异化训练策略，往往比单一模型的极致优化更为有效。

最后感谢小伙伴们的学习噢~