GEWDiff (AAAI 2026)

一、背景与挑战

  • 背景:高光谱图像超分辨率(SR)能显著提升对地面物体观测能力。

  • 现有方法局限性:

    • 传统方法:插值,如近邻接或双线性内插,但无法捕捉多维的光谱数据中存在的复杂非线性关系。
    • 现有深度学习模型:CNN,transformer, GAN 等,难生成丰富的纹理和复杂的空间结构。
  • 扩散模型面临问题:

    • 算力瓶颈:HSI的高光谱维度过多无法直接输入传统扩散模型,会导致扩散模型显存爆炸。
    • 几何失真:传统模型对遥感图像中地面物体拓扑结构理解不足。
    • 收敛不稳定:很多扩散模型在优化损失函数时,只关注噪声本身,对于复杂数据收敛过程不够直观,生成质量不够高。
  • 目标: 实现高光谱图像的4倍超分辨率,在保证光谱保真度的同时,恢复清晰的几何结构。

二、模型结构

LDM

本论文的基础模型架构为LDM,也就是所谓的潜在扩散模型:大体思路为把特征压缩进入潜在空间中再释放
LDM
这是LDM(Latent Diffusion Model)基础架构图 (2022年CVPR)

  • 最左侧像素空间负责压缩与还原 (编码器和解码器)
  • Encoder: 把原始图片压缩成一个小得多的特征图z
  • Decoder: 把生成的特征图还原 这样是为了让中间的扩散模型,不用处理庞大的像素数据,减少算力压力
  • 中间:潜空间 Diffusion Process 是扩散模型 加噪为 Z t Z_t Zt Z t − > Z Z_t->Z Zt>Z则是去噪过程 (用于生成)
  • Denosing U-net:去噪网络,他接收带噪声的 Z t Z_t Zt,预测噪声是多少,然后减去噪声生成更清晰的 Z t − 1 Z_{t-1} Zt1

GEWDiff(Geometric Enhanced Wavelet-based Diffusion Model)

在这里插入图片描述
1、基于小波的编码-解码器

  • 输入: 低分辨率的高光谱图像块如(6464242波段)
  • ①RWA(回归小波分析):首先利用回归小波分析对数据进行分解,这一步利用波段间的冗余性,将数据分解为主要系数和细节系数
  • ②PCA(主成成分分析) :对主要系数进行主成分分析 目的是为了将原本巨大的高维数据压缩在一个紧凑的潜空间中 这一步解决了扩散模型显存占用过大的问题,同时保留关键的光谱-空间信息。

2、几何增强的扩散生成过程

  • 输入:压缩后的特征
  • 输出:去噪后的高分辨率潜在特征

3、Decoding and Reconstruction

  • 操作: 逆向执行第一步执行的操作
  • 逆RWA:利用之前保存的逆PCA:将生成的潜在特征还原为主要系数,回归系数,预测并恢复细节系数,最终重组出完整的高光谱数据立方体
  • 输出:高分辨率的高光谱图像如(256256242)

完整数据流图

步骤 阶段 输入数据 变换操作 输出数据 维度变化 关键说明
1 输入 原始低分辨率高光谱图像 数据预处理/归一化 I L R I_{LR} ILR 64×64×242 原始输入,242个光谱波段
2 编码器-RWA I L R I_{LR} ILR J级Haar小波分解 V L R J V_{LR}^J VLRJ , w L R j w_{LR}^j wLRj 242→121波段 分解为主系数和细节系数
3 编码器-RWA V L R J V_{LR}^J VLRJ , w L R j w_{LR}^j wLRj 线性回归建模 w ^ L R j \hat{w}_{LR}^j w^LRj , B L R B_{LR} BLR - 学习主系数与细节系数的关系
4 编码器-RWA w L R j w_{LR}^j wLRj , w ^ L R j \hat{w}_{LR}^j w^LRj 残差计算 W L R j = w L R j − w ^ L R j W_{LR}^j = w_{LR}^j - \hat{w}_{LR}^j WLRj=wLRjw^LRj - 残差被丢弃(Drop),不传递
5 编码器-PCA V L R J V_{LR}^J VLRJ 主成分分析变换 z L R z_{LR} zLR , R L R R_{LR} RLR 121→20波段 进一步压缩至潜在空间
6 扩散输入 z L R z_{LR} zLR 添加噪声 z t z_t zt 64×64×20 前向扩散过程,t=1…T
7 扩散生成 z t z_t zt , t t t , 条件 C C C 3D U-Net去噪预测 ϵ θ ( z t , t , C ) \epsilon_\theta(z_t, t, C) ϵθ(zt,t,C) 64×64×20 噪声预测网络核心
8 扩散生成 z t z_t zt , ϵ θ \epsilon_\theta ϵθ 采样器去噪迭代 z ^ 0 \hat{z}_0 z^0 64×64×20 50步迭代,生成干净特征
9 解码器-I-PCA z ^ 0 \hat{z}_0 z^0 , R L R R_{LR} RLR 逆PCA变换 V ^ S R J \hat{V}_{SR}^J V^SRJ 20→121波段 恢复小波域主系数
10 解码器-I-RWA V ^ S R J \hat{V}_{SR}^J V^SRJ , B L R B_{LR} BLR 线性回归预测细节 w ^ S R j \hat{w}_{SR}^j w^SRj - 利用编码器权重预测高频
11 解码器-I-RWA V ^ S R J \hat{V}_{SR}^J V^SRJ , w ^ S R j \hat{w}_{SR}^j w^SRj 逆小波重建 I ^ S R \hat{I}_{SR} I^SR 121→242波段 合成完整光谱波段
12 输出 I ^ S R \hat{I}_{SR} I^SR 后处理/反归一化 I S R I_{SR} ISR 256×256×242 最终超分辨率输出

三、创新点

Wavelet-based Encoder-Decoder

在这里插入图片描述
RWA(回归小波分析)与PCA(主成成分分析)

  • 首先输入低分辨率的HSI ,RWA操作: 对输入的图像J进行小波分解,输出分为三个部分- 主系数V 低频信息, 残差W, 高频细节的预测误差(丢弃), 权重B, 线性回归模型的参数 PCA(主成分分析) 输入 RWA输出的主系数
  • 操作:进一步压缩光谱维度 输出:低维潜特征,输入扩散模型 R L R R_{LR} RLR PCA的剩余分量,确保PCA变换可逆,减少信息损失
  • 解码器部分: 将高维的光谱信息分解。然后,它聪明地只保留了最关键的低频主成分,并用一个线性回归模型来“记住”如何从主成分预测出高频细节。接着,再用我们熟悉的主成分分析(Principal Component Analysis, PCA)对这些主成分进行二次压缩,最终得到一个非常紧凑的潜在表示(latent space)。

Geometric enhanced diffusion process

A. 边缘感知噪声调度器 (Edge-aware noise scheduler)

在遥感场景中,我们希望澄清建筑物和其他地面物体的轮廓,因此设计这个模块,边缘在正向扩散过程中被保留,边缘周围的噪声比一般噪声小。 这里引入了二值边缘图 E E E。如果一个像素在边缘上( E = 1 E=1 E=1),后面的乘子就会减小注入的噪声。从而避免了建筑物轮廓在极度噪声下被完全破坏。 z t = z 0 + σ t ϵ ⊙ ( 1 − E ( 1 − σ n o r m 2 ) η ) z_t = z_0 + \sigma_t\epsilon \odot (1 - E(1 - \sigma_{norm}^2)^\eta) zt=z0+σtϵ(1E(1σnorm2)η)

B. 掩码可控的训练与采样 (Mask controllable training and sampling)

处理流程:LG RGB → \rightarrow SAM分割 → \rightarrow 结合NDVI(植被指数) → \rightarrow 计算Mask。 M s = 1 − 1 ∣ S s ∣ ∑ ( x , y ) ∈ S s NDVI n o r m ( x , y ) , NDVI n o r m ∈ [ 0 , 1 ] M_s = 1 - \frac{1}{|S_s|} \sum_{(x,y) \in S_s} \text{NDVI}_{norm}(x, y), \text{NDVI}_{norm} \in [0, 1] Ms=1Ss1(x,y)SsNDVInorm(x,y),NDVInorm[0,1]几何形状保护:将Mask注入U-Net模型(通过条件 C \mathbf{C} C 注意建筑物轮廓)。 z ^ 0 = f θ ( z t , C , σ t ) , C = [ z L R , M ] \hat{\mathbf{z}}_0 = f_\theta(\mathbf{z}_t, \mathbf{C}, \sigma_t), \mathbf{C} = [\mathbf{z}_{LR}, \mathbf{M}] z^0=fθ(zt,C,σt),C=[zLR,M]Mask与低分辨率的隐空间特征拼接在一起组成完整的条件向量,并进行归一化处理。 采样过程:作者采用DPM-Solver++来加速采样时间步,首先将时间步离散化为 N N N 个离散步,在每个去噪步过程中条件 C \mathbf{C} C 会参与每一次评估。

C. DPM-Solver++ 极速采样
从纯噪声起步,利用非线性时间表控制步调,通过融合当前步和上一步的梯度方向,实现大跨步的去噪更新,从而将采样步数降到 50 步。 非线性噪声调度公式: σ n = ( σ m a x 1 / ρ + n N − 1 ( σ m i n 1 / ρ − σ m a x 1 / ρ ) ) ρ \sigma_n = \left(\sigma_{max}^{1/\rho} + \frac{n}{N-1}(\sigma_{min}^{1/\rho} - \sigma_{max}^{1/\rho})\right)^\rho σn=(σmax1/ρ+N1n(σmin1/ρσmax1/ρ))ρ二阶去噪方向修正公式: f ~ θ = ( 1 − γ ) f θ ( z ^ n , C , σ n ) + γ f θ ( z ^ n − 1 , C , σ n − 1 ) \tilde{f}_\theta = (1 - \gamma)f_\theta(\hat{z}_n, C, \sigma_n) + \gamma f_\theta(\hat{z}_{n-1}, C, \sigma_{n-1}) f~θ=(1γ)fθ(z^n,C,σn)+γfθ(z^n1,C,σn1)隐变量极速更新公式: z n + 1 = σ n + 1 σ n z ^ n − σ n + 1 ( e − Δ t − 1 ) ⋅ f ~ θ z_{n+1} = \frac{\sigma_{n+1}}{\sigma_n}\hat{z}_n - \sigma_{n+1}(e^{-\Delta t} - 1) \cdot \tilde{f}_\theta zn+1=σnσn+1z^nσn+1(eΔt1)f~θ

多尺度损失函数 (Multi-level loss function)

总损失函数: L = λ ( t ) ⋅ ( λ 1 L p i x e l + λ 2 L p e r c + λ 3 L g r a d ) \mathcal{L} = \lambda(t) \cdot (\lambda_1\mathcal{L}_{pixel} + \lambda_2\mathcal{L}_{perc} + \lambda_3\mathcal{L}_{grad}) L=λ(t)(λ1Lpixel+λ2Lperc+λ3Lgrad)像素级损失函数: L p i x e l = ( ∣ ∣ z 0 − z ^ 0 ∣ ∣ 2 + S A M ( z 0 , z ^ 0 ) ) / 2 \mathcal{L}_{pixel} = (||\mathbf{z}_0 - \hat{\mathbf{z}}_0||^2 + SAM(\mathbf{z}_0, \hat{\mathbf{z}}_0)) / 2 Lpixel=(∣∣z0z^02+SAM(z0,z^0))/2HSI有上百个通道,光谱曲线代表了地面物体的材质,SAM约束,保证光谱曲线不扭曲。 感知损失: L p e r c = ∣ ∣ ϕ V G G ( z ^ 0 ) − ϕ V G G ( z 0 ) ∣ ∣ 2 2 \mathcal{L}_{perc} = ||\phi_{VGG}(\hat{\mathbf{z}}_0) - \phi_{VGG}(\mathbf{z}_0)||_2^2 Lperc=∣∣ϕVGG(z^0)ϕVGG(z0)22将预测图和真实图送入预训练的 VGG 网络,在特征层级算误差,保证高级语义特征的相似性。 梯度损失: L g r a d = 1 2 ( ∣ ∣ ∇ x z ^ 0 − ∇ x z 0 ∣ ∣ 1 + ∣ ∣ ∇ y z ^ 0 − ∇ y z 0 ∣ ∣ 1 ) \mathcal{L}_{grad} = \frac{1}{2}(||\nabla_x\hat{z}_0 - \nabla_xz_0||^1 + ||\nabla_y\hat{z}_0 - \nabla_yz_0||^1) Lgrad=21(∣∣xz^0xz01+∣∣yz^0yz01)强制模型生成的图像在水平和垂直方向上的梯度与真实图像对齐。 因为 DPM-Solver++ 生成的图像往往具有高对比度特征,梯度损失能有效消除模糊,保证细节锐利。

四、实验结果

数据集与评价指标

  • 使用数据集:使用了 EeteS 模拟的 EnMap Campaign 数据集(空间分辨率 2.5-4m,242个波段)以及 MDAS 数据集进行训练和验证, WDC数据集进行泛化测试。
  • 评价指标:
  • 空间保真度:PSNR, SSIM, RMSE
  • 光谱准确度:SAM (光谱角映射), CC(互相关)
  • 视觉真实度与清晰度:FID, LV

实验

在这里插入图片描述
空间换时间的思想 其实普通扩散模型在处理高光谱时,每通道甚至需要 1.3 GB 显存 ; 作者通过小波压缩 (RWA+PCA) 降维,加上对 3D U-Net 的显存优化,已经将训练时的单通道显存需求压低到了 1.0 GB , 并且通过 DPM-Solver++ 极大地缩短了推理时间(仅需 50 步)。这是以“空间换时间/质量”的工程权衡。 附录中作者提供了一个基于 2D U-Net 的轻量级备选版本,它可以在单张 RTX 3090 上以 batch size 16 轻松训练
在这里插入图片描述
Figure4: GEWDiff 生成的建筑物轮廓极其清晰锐利
在这里插入图片描述
Figure5:展示某个随机像素在 242 个波段上的反射率曲线。 强调深红色的线(GEWDiff)与黑色的线(Ground Truth)贴合得最紧密,误差波动(Difference value)极小 。

消融实验

在这里插入图片描述

  • 编解码器的必要性 (A, B): 移除 PCA (A) 导致 PSNR 断崖式下跌至 15.788,移除 RWA (B) 虽然 PSNR 有 25.640,但远不及完整版的 27.013 。这证明了两者结合 (RWA+PCA) 的强大压缩重建能力。
  • 几何先验的有效性 (C, D): 移除边缘扰动 © 或掩膜条件 (D),全局指标(如 PSNR)下降不明显(26.579, 26.681) ,但在实际视觉效果上,这两者对保持建筑物边缘不失真起到了决定性作用 。
  • 3D U-Net 与 SFE 的威力 (H, I): 将 3D U-Net 降级为 2D U-Net (I) 或移除光谱保真度增强器 SFE (H),会导致光谱角 SAM 和 FID 显著变差 ,证明了 3D 卷积和光谱注意力机制对 HSI 的不可替代性。

编解码器性能探究

在这里插入图片描述

模型鲁棒性实验

在这里插入图片描述
条件扰动实验

  • 分割模型误差:随机掩码侵蚀/膨胀 (1-3像素) + 随机空间平移 (±1-2像素)
  • 传感器噪声:低分辨率输入添加 1% 高斯噪声
  • SSIM, SAM变换很少,PSNR下降在可接受范围内
  • 模型可以泛化到理想掩码条件之外,在真实噪声和边界偏差下保持稳定性能

真实卫星图像超分

在这里插入图片描述
评价一个遥感基础模型的最终落脚点是其工程实用价值。 GEWDiff 不仅能无缝衔接现有的 EnMAP 与 Sentinel 卫星工作流,更在实际的下游土地覆盖分类任务中,显著提升了总体精度。 展示模型如何将低分辨率的 EnMAP (30m) 与 Sentinel-2 (10m) 融合后,进一步利用 GEWDiff 生成了高达 2.5m 分辨率的超高质高光谱图像 。

下游地物分类任务

在这里插入图片描述
视觉比较揭示了建筑区和植被之间更清晰的区分,以及对不透水结构的更精确的检测。 这些结果表明,GEWDiff不仅对光谱数据进行上采样,而且生成能够区分更多类别特征并提高下游辨别能力的表示 。因此,即使监管信息有限和训练样本数量较少,该模型也可以为实际的遥感应用带来切实的好处。

总结

在这里插入图片描述

参考

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐