英文题目: S²CycleDiff: Spatial-Spectral-Bilateral Cycle-Diffusion Framework for Hyperspectral Image Super-resolution

中文题目: 基于空间-光谱双向循环扩散的高光谱图像超分辨率方法

会议: AAAI 2024

任务方向: 高光谱图像超分辨率 / 高光谱-多光谱图像融合

关键词: 高光谱图像超分辨率;高光谱-多光谱融合;扩散模型;循环扩散;空间-光谱双向建模;SGPD;DIB


一、研究背景

高光谱图像,Hyperspectral Image,简称 HSI,包含大量连续光谱波段,能够提供丰富的光谱信息。相比普通 RGB 图像或多光谱图像,高光谱图像可以更细致地反映地物的材料属性,因此广泛应用于城市规划、灾害监测、水资源管理、农业遥感等任务。

但是,高光谱成像系统通常存在一个天然矛盾:

高光谱分辨率⟺低空间分辨率

也就是说,高光谱图像虽然光谱信息丰富,但是空间细节往往不足。与之相对,多光谱图像,Multispectral Image,简称 MSI,通常具有更高空间分辨率,但波段数量较少,光谱信息不如 HSI 丰富。

因此,高光谱图像超分辨率,Hyperspectral Image Super-Resolution,简称 HISR,通常希望利用:

LrHSI 的光谱信息+HrMSI 的空间信息→HrHSI

其中:

  • $X \in \mathbb{R}^{B \times h \times w}$表示低空间分辨率高光谱图像 LrHSI;
  • $Y \in \mathbb{R}^{b \times H \times W}$表示高空间分辨率多光谱图像 HrMSI;
  • $Z \in \mathbb{R}^{B \times H \times W}$ 表示目标高空间分辨率高光谱图像 HrHSI;
  • 通常有 $b < B$$h < H$$w < W$

也就是本文的核心任务可以写成:

~(X,Y) \rightarrow \tilde{Z}

其中 $\tilde{Z}$ 是模型重建得到的高分辨率高光谱图像。


二、现有方法的问题

很多已有 HISR 方法直接学习从 LrHSI 和 HrMSI 到 HrHSI 的联合映射:

\tilde{Z}=F(X,Y)

这种方法虽然直观,但是容易出现两个问题:

第一,空间细节注入不充分
HrMSI 中包含丰富的空间纹理、边缘和结构信息,如果只是简单拼接或普通卷积融合,模型可能无法充分利用这些高频细节。

第二,光谱分布保持不好
LrHSI 中包含完整的光谱响应信息,如果融合过程中空间信息注入过强,可能会破坏原有光谱曲线,导致光谱失真。

所以,本文的出发点可以概括为: 不仅要融合空间和光谱信息,还要分别保持空间一致性与光谱一致性。这也是 S²CycleDiff 设计“双向循环扩散”的主要原因。


三、创新点

本文主要有三个创新点。

1. 提出空间-光谱双向循环扩散框架 S²CycleDiff

论文不是简单地用一个网络直接从 $X,Y$回归 $\tilde{Z}$,而是设计了一个条件循环扩散框架,将超分辨率过程拆成两个互补分支: Spatial Branch+Spectral Branch

空间分支侧重恢复空间细节,光谱分支侧重保持光谱分布。两个分支通过循环扩散方式反复细化结果。

2. 设计条件循环扩散机制

在反向扩散过程中,模型分别学习空间超分辨率和光谱超分辨率的条件分布:

Z_{t,0}^{Spa}=f_{\theta}(Z_t^{Spa},X,Y) 

Z_{t,0}^{Spe}=f_{\omega}(Z_t^{Spe},Y,X)

其中,$Z_{t,0}^{Spa}$ 是空间分支在时间步 $t$ 预测的干净 HrHSI,$Z_{t,0}^{Spe}$ 是光谱分支在时间步 $t$ 预测的干净 HrHSI。

3. 提出 SGPD 空间/光谱引导金字塔去噪模块

SGPD,全称 Spatial/Spectral Guided Pyramid Denoising,是条件扩散框架的核心模块。它通过多尺度金字塔结构和细节注入块 DIB,将 HrMSI 或 LrHSI 中的有效信息注入到去噪过程中。

直观理解就是: HrMSI 提供空间细节,LrHSI 提供光谱校正。


四、整体方法框架

S²CycleDiff 的整体流程可以分为三个部分:

  1. 前向扩散过程;
  2. 反向条件循环扩散过程;
  3. 互补融合模块。

1. 前向扩散过程

给定干净的高分辨率高光谱图像 $Z_0$,其中:

Z_0 = Z

前向扩散过程不断向 $Z_0$ 中加入高斯噪声,最终得到接近标准高斯分布的 $Z_T$

每一个时间步的前向扩散过程可以表示为:

q(Z_t|Z_{t-1})= \mathcal{N} \left( Z_t; \sqrt{1-\beta_t}Z_{t-1}, \beta_t I \right)

其中,$\beta_t$ 是噪声调度参数,$I$是单位矩阵。通过重参数化技巧,可以直接由 $Z_0$ 得到任意时间步的 $Z_t$

q(Z_t|Z_0)= \mathcal{N} \left( Z_t; \sqrt{\bar{\gamma}_t}Z_0, (1-\bar{\gamma}_t)I \right)

Z_t=\sqrt{\bar{\gamma}_t}Z_0+\sqrt{1-\bar{\gamma}_t}\epsilon

其中: \epsilon \sim \mathcal{N}(0,I)

这个过程的作用是把真实图像逐渐扰动成噪声图像。扩散模型的反向过程则是学习如何一步步去噪。


五、反向条件循环扩散过程

反向扩散的目标是从噪声图像 $Z_T$ 逐步恢复出干净图像 $Z_0$。S²CycleDiff 的特别之处在于,它不是只用一个分支进行恢复,而是设计了空间分支和光谱分支。

1. 空间超分辨率分支

空间分支以 LrHSI 作为条件,以 HrMSI 作为引导,目标是恢复更清晰的空间细节:Z_{t,0}^{Spa}=f_{\theta}(Z_t^{Spa},X,Y)

这里可以理解为:

  • $Z_t^{Spa}$:当前时间步的带噪高光谱图像;
  • $X$:低分辨率高光谱图像,提供光谱基础;
  • $Y$:高分辨率多光谱图像,提供空间纹理;
  • $f_{\theta}$:空间分支网络。

空间分支的核心任务是: 利用 HrMSI 的空间结构,增强 HrHSI 的空间细节。

2. 光谱超分辨率分支

光谱分支以 HrMSI 作为条件,以 LrHSI 作为引导,目标是保持更准确的光谱分布:

)Z_{t,0}^{Spe}=f_{\omega}(Z_t^{Spe},Y,X)

这里 $f_{\omega}$ 表示光谱分支网络。

光谱分支的核心任务是: 利用 LrHSI 的光谱信息,减少光谱失真。

3. 循环更新

在每一个时间步,两个分支都会预测当前的干净图像,然后根据扩散后验公式得到下一步输入。空间分支更新为:

Z_{t-1}^{Spa} = \frac{\sqrt{\bar{\gamma}_{t-1}}(1-\gamma_t)} {1-\bar{\gamma}_t} f_{\theta}(Z_t^{Spa},X,Y) + \frac{\sqrt{\gamma_t}(1-\bar{\gamma}_{t-1})} {1-\bar{\gamma}_t} Z_t^{Spa} + \sqrt{ \frac{(1-\bar{\gamma}_{t-1})(1-\gamma_t)} {1-\bar{\gamma}_t} }\epsilon

光谱分支更新为:

Z_{t-1}^{Spe} = \frac{\sqrt{\bar{\gamma}_{t-1}}(1-\gamma_t)} {1-\bar{\gamma}_t} f_{\omega}(Z_t^{Spe},Y,X) + \frac{\sqrt{\gamma_t}(1-\bar{\gamma}_{t-1})} {1-\bar{\gamma}_t} Z_t^{Spe} + \sqrt{ \frac{(1-\bar{\gamma}_{t-1})(1-\gamma_t)} {1-\bar{\gamma}_t} }\epsilon

直观来说,每一轮循环都在做两件事: 空间分支补细节,光谱分支校光谱。

这就是 S²CycleDiff 中 “Spatial-Spectral-Bilateral Cycle” 的含义。


六、核心模块:SGPD 空间/光谱引导金字塔去噪模块

SGPD 是本文最关键的模块之一。它的作用是在扩散去噪过程中,把引导图像的信息有效注入进去。

对于空间分支,SGPD 可以写成:

Z_{t,0}^{Spa} = f_{\theta}(Z_t^{Spa},X,Y) = Spa\text{-}GPD \left( Conv_{3 \times 3}(Z_t^{Spa},X),Y \right)

进一步写为:

Z_{t,0}^{Spa} = Spa\text{-}GPD(\hat{Z}_t^{Spa},Y)

其中:

\hat{Z}_t^{Spa}=Conv_{3 \times 3}(Z_t^{Spa},X)

也就是说,空间分支先将当前噪声图像$Z_t^{Spa}$ 和 LrHSI $X$进行卷积融合,然后再用 HrMSI $Y$ 进行空间引导。

对于光谱分支,过程类似:

Z_{t,0}^{Spe} = f_{\omega}(Z_t^{Spe},Y,X) = Spe\text{-}GPD \left( Conv_{3 \times 3}(Z_t^{Spe},Y),X \right)

进一步写为:

Z_{t,0}^{Spe} = Spe\text{-}GPD(\hat{Z}_t^{Spe},X)

其中:\hat{Z}_t^{Spe}=Conv_{3 \times 3}(Z_t^{Spe},Y)

因此,两个分支是对称的:

Spa-GPD:用 HrMSI 引导空间细节注入

Spe-GPD:用 LrHSI 引导光谱信息校正


七、DIB:细节注入块

DIB,全称 Detail Injection Block,是 SGPD 中的基本单元。它主要用于在多尺度特征中注入引导图像的空间或光谱细节。

以空间分支为例,第 $l$ 个 DIB 可以表示为:

(\hat{Z}_t^{Spa,l},Z_{t,0}^{Spa,l}) = DIB_t^l ( \hat{Z}_t^{Spa,l-1}, Z_{t,0}^{Spa,l+1}, Y )

其中:

  • $\hat{Z}_t^{Spa,l-1}$ 表示上一层传来的中间特征;
  • $Z_{t,0}^{Spa,l+1}$ 表示下一层上采样回来的特征;
  • $Y$ 表示 HrMSI 引导图像。

DIB 中使用了交叉注意力机制,将引导图像 $Y$ 的精细空间纹理注入到当前高光谱特征中。其核心可以理解为:

当前 HSI 特征作为待增强对象,HrMSI 作为空间细节来源。在光谱分支中,DIB 的结构是类似的,只是引导信息从 HrMSI 换成了 LrHSI,用于加强光谱一致性。

所以 DIB 的作用可以概括为:

不是简单拼接,而是在多尺度上通过注意力机制选择性注入有效细节。这个设计比普通 concat 更精细,也更适合高光谱图像这种空间-光谱耦合很强的数据。


八、互补融合模块 CFB

经过空间分支和光谱分支后,模型会得到两个候选的高分辨率高光谱结果:

Z_{t,0}^{Spa} Z_{t,0}^{Spe}

二者各有侧重:

  • $Z_{t,0}^{Spa}$:空间结构更强;
  • $Z_{t,0}^{Spe}$:光谱分布更稳。

因此,论文使用 Complementary Fusion Block,简称 CFB,将二者进行互补融合:

\tilde{Z} = f_{\eta} \left( f_{\theta}(Z_t^{Spa},X), f_{\omega}(Z_t^{Spe},Y) \right)

也可以写成:\tilde{Z} = f_{\eta} \left( Z_{t,0}^{Spa}, Z_{t,0}^{Spe} \right)

其中,$f_{\eta}$ 是互补融合模块,主要由一系列卷积层构成。

直观理解就是: 空间结果+光谱结果→最终 HrHSI


九、损失函数设计

本文不仅直接约束重建结果,还设计了多个一致性约束,分别保证空间、光谱以及最终融合结果的质量。

1. 双分支重建损失

首先,对空间分支和光谱分支的预测结果都进行监督:

L_1= \frac{1}{N} \sum_{n=1}^{N} \left( \|Z^n-Z_{t,0}^{Spa,n}\|_1 + \|Z^n-Z_{t,0}^{Spe,n}\|_1 \right)

这个损失保证两个分支都能接近真实 HrHSI。

2. 空间与光谱退化一致性损失

由预测的 HrHSI 可以通过 PSF 和 SRF 退化得到对应的 LrHSI 和 HrMSI:

\tilde{X}^n=PSF(Z_{t,0}^{Spe,n}) \tilde{Y}^n=SRF(Z_{t,0}^{Spa,n})

于是可以约束:

L_2= \frac{1}{N} \sum_{n=1}^{N} \left( \|X^n-\tilde{X}^n\|_1 + \|Y^n-\tilde{Y}^n\|_1 \right)

其中,PSF 表示点扩散函数,主要模拟空间模糊与下采样;SRF 表示光谱响应函数,主要模拟从 HSI 到 MSI 的光谱退化。

这个损失的意义是: 如果重建结果是正确的,那么它退化回去应该接近原始观测图像。

3. PSF-SRF 一致性约束

论文还约束由 HrMSI 和 LrHSI 得到的 MSI 表示保持一致:

L_3= \frac{1}{N} \sum_{n=1}^{N} \|PSF(Y^n)-SRF(X^n)\|_1

这个损失进一步增强了空间退化和光谱退化之间的一致性。

4. 最终融合结果监督

最终输出 $\tilde{Z}$ 也需要接近真实 HrHSI:

L_4= \frac{1}{N} \sum_{n=1}^{N} \|Z^n-\tilde{Z}^n\|_1

5. 总损失

最终训练目标为:

L=L_1+L_2+L_3+L_4

可以看到,本文的损失设计不是单纯的像素重建,而是同时考虑:

双分支重建+退化一致性+最终融合监督,这也是它能够保持空间-光谱一致性的关键。


十、实验设计

论文在三个常用数据集上进行了实验:

  1. CAVE;
  2. Chikusei;
  3. Pavia Center。

评价指标包括:

  • PSNR:峰值信噪比,越高越好;
  • SAM:光谱角映射,越低越好;
  • ERGAS:全局相对误差,越低越好;
  • SSIM:结构相似性,越高越好。

对比方法包括传统方法和深度学习方法,例如 GSA、FUSE、CNMF、SSR-NET、MoG-DCN、LAGC-NET、LightNet、PSRT 等。

从论文结果可以看出,S²CycleDiff 在 CAVE、Chikusei 和 Pavia Center 三个数据集上整体取得了最优或非常有竞争力的结果。例如,在 CAVE 数据集上,S²CycleDiff 的 PSNR 达到 43.9264,SAM 为 2.7907,ERGAS 为 1.5834,SSIM 为 0.9898;在 Chikusei 数据集上,PSNR 达到 43.8817,SSIM 达到 0.9909;在 Pavia Center 数据集上,PSNR 达到 43.3698,SAM 为 2.7814。

这说明该方法不仅在空间细节恢复方面有效,也能较好地保持光谱一致性。


十一、消融实验分析

论文还进行了消融实验,主要验证两个问题:

1. 双向循环扩散是否有效?

作者设计了两个变体:

  • Variant-Spa:只保留空间分支;
  • Variant-Spe:只保留光谱分支。

实验结果表明,完整的 S²CycleDiff 优于单分支变体。

这说明:

空间分支和光谱分支不是重复设计,而是互补关系。单独依赖空间分支,容易光谱保持不足;单独依赖光谱分支,空间细节恢复不够。只有二者结合,才能得到更好的 HrHSI。

2. DIB 是否有效?

论文还比较了无引导因素、直接拼接引导因素和完整 DIB 三种形式。结果表明,使用交叉注意力进行细节注入的 DIB 效果最好。

这说明: 有效引导>简单拼接

也就是说,HrMSI 和 LrHSI 中的信息不能粗暴地塞进网络,而应该通过注意力机制进行选择性注入。

3. DIB 数量影响

论文进一步分析了 SGPD 中 DIB 数量的影响。实验表明,当 DIB 数量设置为 4 时,模型取得较优性能。

这说明多尺度细节注入是有必要的,但也不是越深越好。太少会导致细节建模不足,太多则可能增加冗余和训练难度。


十二、方法总结

S²CycleDiff 的核心可以总结为:

S^2CycleDiff = \text{Conditional Cycle-Diffusion} + \text{SGPD} + \text{CFB}

其中:

\text{Conditional Cycle-Diffusion} = \text{Spatial Branch} + \text{Spectral Branch} \text{SGPD} = \text{Pyramid Denoising} + \text{Detail Injection Block} \text{CFB} = \text{Complementary Fusion of Spatial and Spectral Results}

从整体思想来看,本文并不是简单地把扩散模型套到 HISR 任务上,而是结合高光谱-多光谱融合任务的特点,专门设计了空间分支和光谱分支。

空间分支关注: 如何从 HrMSI 中注入更清晰的空间纹理

光谱分支关注: 如何从 LrHSI 中保持更准确的光谱分布

最终通过 CFB 互补融合,得到具有高空间分辨率和高光谱保真度的 HrHSI。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐