GEWDiff: Geometric Enhanced Wavelet-based Diffusion Model for Hyperspectral Image Super-resolution

永远有多远.

275人浏览 · 2026-03-25 12:29:29

永远有多远. · 2026-03-25 12:29:29 发布

GEWDiff (AAAI 2026)

一、背景与挑战

背景：高光谱图像超分辨率（SR）能显著提升对地面物体观测能力。
现有方法局限性：
- 传统方法：插值，如近邻接或双线性内插，但无法捕捉多维的光谱数据中存在的复杂非线性关系。
- 现有深度学习模型：CNN，transformer, GAN 等，难生成丰富的纹理和复杂的空间结构。
扩散模型面临问题：
- 算力瓶颈：HSI的高光谱维度过多无法直接输入传统扩散模型，会导致扩散模型显存爆炸。
- 几何失真：传统模型对遥感图像中地面物体拓扑结构理解不足。
- 收敛不稳定：很多扩散模型在优化损失函数时，只关注噪声本身，对于复杂数据收敛过程不够直观，生成质量不够高。
目标：实现高光谱图像的4倍超分辨率，在保证光谱保真度的同时，恢复清晰的几何结构。

二、模型结构

LDM

本论文的基础模型架构为LDM，也就是所谓的潜在扩散模型：大体思路为把特征压缩进入潜在空间中再释放
LDM
这是LDM（Latent Diffusion Model）基础架构图（2022年CVPR）

最左侧像素空间负责压缩与还原（编码器和解码器）
Encoder：把原始图片压缩成一个小得多的特征图z
Decoder: 把生成的特征图还原这样是为了让中间的扩散模型，不用处理庞大的像素数据，减少算力压力
中间：潜空间 Diffusion Process 是扩散模型加噪为 $Z_t$ ， $Z_t->Z$ 则是去噪过程 (用于生成)
Denosing U-net：去噪网络，他接收带噪声的 $Z_t$ ，预测噪声是多少，然后减去噪声生成更清晰的 $Z_{t-1}$

GEWDiff(Geometric Enhanced Wavelet-based Diffusion Model)

在这里插入图片描述
1、基于小波的编码-解码器

输入：低分辨率的高光谱图像块如（6464242波段）
①RWA（回归小波分析）：首先利用回归小波分析对数据进行分解，这一步利用波段间的冗余性，将数据分解为主要系数和细节系数
②PCA（主成成分分析）：对主要系数进行主成分分析目的是为了将原本巨大的高维数据压缩在一个紧凑的潜空间中这一步解决了扩散模型显存占用过大的问题，同时保留关键的光谱-空间信息。

2、几何增强的扩散生成过程

输入：压缩后的特征
输出：去噪后的高分辨率潜在特征

3、Decoding and Reconstruction

操作：逆向执行第一步执行的操作
逆RWA：利用之前保存的逆PCA：将生成的潜在特征还原为主要系数，回归系数，预测并恢复细节系数，最终重组出完整的高光谱数据立方体
输出：高分辨率的高光谱图像如（256256242）

完整数据流图

步骤	阶段	输入数据	变换操作	输出数据	维度变化	关键说明
1	输入	原始低分辨率高光谱图像	数据预处理/归一化	$I_{LR}$	64×64×242	原始输入，242个光谱波段
2	编码器-RWA	$I_{LR}$	J级Haar小波分解	$V_{LR}^J$ , $w_{LR}^j$	242→121波段	分解为主系数和细节系数
3	编码器-RWA	$V_{LR}^J$ , $w_{LR}^j$	线性回归建模	$\hat{w}_{LR}^j$ , $B_{LR}$	-	学习主系数与细节系数的关系
4	编码器-RWA	$w_{LR}^j$ , $\hat{w}_{LR}^j$	残差计算	$W_{LR}^j = w_{LR}^j - \hat{w}_{LR}^j$	-	残差被丢弃(Drop)，不传递
5	编码器-PCA	$V_{LR}^J$	主成分分析变换	$z_{LR}$ , $R_{LR}$	121→20波段	进一步压缩至潜在空间
6	扩散输入	$z_{LR}$	添加噪声	$z_t$	64×64×20	前向扩散过程，t=1…T
7	扩散生成	$z_t$ , $t$ , 条件 $C$	3D U-Net去噪预测	$\epsilon_\theta(z_t, t, C)$	64×64×20	噪声预测网络核心
8	扩散生成	$z_t$ , $\epsilon_\theta$	采样器去噪迭代	$\hat{z}_0$	64×64×20	50步迭代，生成干净特征
9	解码器-I-PCA	$\hat{z}_0$ , $R_{LR}$	逆PCA变换	$\hat{V}_{SR}^J$	20→121波段	恢复小波域主系数
10	解码器-I-RWA	$\hat{V}_{SR}^J$ , $B_{LR}$	线性回归预测细节	$\hat{w}_{SR}^j$	-	利用编码器权重预测高频
11	解码器-I-RWA	$\hat{V}_{SR}^J$ , $\hat{w}_{SR}^j$	逆小波重建	$\hat{I}_{SR}$	121→242波段	合成完整光谱波段
12	输出	$\hat{I}_{SR}$	后处理/反归一化	$I_{SR}$	256×256×242	最终超分辨率输出

三、创新点

Wavelet-based Encoder-Decoder

在这里插入图片描述
RWA（回归小波分析）与PCA（主成成分分析）

首先输入低分辨率的HSI ，RWA操作：对输入的图像J进行小波分解，输出分为三个部分- 主系数V 低频信息，残差W，高频细节的预测误差（丢弃），权重B，线性回归模型的参数 PCA（主成分分析）输入 RWA输出的主系数
操作：进一步压缩光谱维度输出：低维潜特征，输入扩散模型 $R_{LR}$ PCA的剩余分量，确保PCA变换可逆，减少信息损失
解码器部分：将高维的光谱信息分解。然后，它聪明地只保留了最关键的低频主成分，并用一个线性回归模型来“记住”如何从主成分预测出高频细节。接着，再用我们熟悉的主成分分析（Principal Component Analysis, PCA）对这些主成分进行二次压缩，最终得到一个非常紧凑的潜在表示（latent space）。

Geometric enhanced diffusion process

A. 边缘感知噪声调度器 (Edge-aware noise scheduler)

在遥感场景中，我们希望澄清建筑物和其他地面物体的轮廓，因此设计这个模块，边缘在正向扩散过程中被保留，边缘周围的噪声比一般噪声小。这里引入了二值边缘图 $E$ 。如果一个像素在边缘上（ $E = 1$ ），后面的乘子就会减小注入的噪声。从而避免了建筑物轮廓在极度噪声下被完全破坏。 $z_t = z_0 + \sigma_t\epsilon \odot (1 - E(1 - \sigma_{norm}^2)^\eta)$

B. 掩码可控的训练与采样 (Mask controllable training and sampling)

处理流程：LG RGB $\rightarrow$ SAM分割 $\rightarrow$ 结合NDVI（植被指数） $\rightarrow$ 计算Mask。 $M_s = 1 - \frac{1}{|S_s|} \sum_{(x,y) \in S_s} \text{NDVI}_{norm}(x, y), \text{NDVI}_{norm} \in [0, 1]$ 几何形状保护：将Mask注入U-Net模型（通过条件 $\mathbf{C}$ 注意建筑物轮廓）。 $\hat{\mathbf{z}}_0 = f_\theta(\mathbf{z}_t, \mathbf{C}, \sigma_t), \mathbf{C} = [\mathbf{z}_{LR}, \mathbf{M}]$ Mask与低分辨率的隐空间特征拼接在一起组成完整的条件向量，并进行归一化处理。采样过程：作者采用DPM-Solver++来加速采样时间步，首先将时间步离散化为 $N$ 个离散步，在每个去噪步过程中条件 $\mathbf{C}$ 会参与每一次评估。

C. DPM-Solver++ 极速采样
从纯噪声起步，利用非线性时间表控制步调，通过融合当前步和上一步的梯度方向，实现大跨步的去噪更新，从而将采样步数降到 50 步。非线性噪声调度公式： $\sigma_n = \left(\sigma_{max}^{1/\rho} + \frac{n}{N-1}(\sigma_{min}^{1/\rho} - \sigma_{max}^{1/\rho})\right)^\rho$ 二阶去噪方向修正公式： $\tilde{f}_\theta = (1 - \gamma)f_\theta(\hat{z}_n, C, \sigma_n) + \gamma f_\theta(\hat{z}_{n-1}, C, \sigma_{n-1})$ 隐变量极速更新公式： $z_{n+1} = \frac{\sigma_{n+1}}{\sigma_n}\hat{z}_n - \sigma_{n+1}(e^{-\Delta t} - 1) \cdot \tilde{f}_\theta$

多尺度损失函数 (Multi-level loss function)

总损失函数： $\mathcal{L} = \lambda(t) \cdot (\lambda_1\mathcal{L}_{pixel} + \lambda_2\mathcal{L}_{perc} + \lambda_3\mathcal{L}_{grad})$ 像素级损失函数： $\mathcal{L}_{pixel} = (||\mathbf{z}_0 - \hat{\mathbf{z}}_0||^2 + SAM(\mathbf{z}_0, \hat{\mathbf{z}}_0)) / 2$ HSI有上百个通道，光谱曲线代表了地面物体的材质，SAM约束，保证光谱曲线不扭曲。感知损失： $\mathcal{L}_{perc} = ||\phi_{VGG}(\hat{\mathbf{z}}_0) - \phi_{VGG}(\mathbf{z}_0)||_2^2$ 将预测图和真实图送入预训练的 VGG 网络，在特征层级算误差，保证高级语义特征的相似性。梯度损失： $\mathcal{L}_{grad} = \frac{1}{2}(||\nabla_x\hat{z}_0 - \nabla_xz_0||^1 + ||\nabla_y\hat{z}_0 - \nabla_yz_0||^1)$ 强制模型生成的图像在水平和垂直方向上的梯度与真实图像对齐。因为 DPM-Solver++ 生成的图像往往具有高对比度特征，梯度损失能有效消除模糊，保证细节锐利。

四、实验结果

数据集与评价指标

使用数据集：使用了 EeteS 模拟的 EnMap Campaign 数据集（空间分辨率 2.5-4m，242个波段）以及 MDAS 数据集进行训练和验证， WDC数据集进行泛化测试。
评价指标：
空间保真度：PSNR, SSIM, RMSE
光谱准确度：SAM (光谱角映射), CC（互相关）
视觉真实度与清晰度：FID, LV

实验

在这里插入图片描述
空间换时间的思想其实普通扩散模型在处理高光谱时，每通道甚至需要 1.3 GB 显存；作者通过小波压缩 (RWA+PCA) 降维，加上对 3D U-Net 的显存优化，已经将训练时的单通道显存需求压低到了 1.0 GB ，并且通过 DPM-Solver++ 极大地缩短了推理时间（仅需 50 步）。这是以“空间换时间/质量”的工程权衡。附录中作者提供了一个基于 2D U-Net 的轻量级备选版本，它可以在单张 RTX 3090 上以 batch size 16 轻松训练
在这里插入图片描述
Figure4: GEWDiff 生成的建筑物轮廓极其清晰锐利

Figure5:展示某个随机像素在 242 个波段上的反射率曲线。强调深红色的线（GEWDiff）与黑色的线（Ground Truth）贴合得最紧密，误差波动（Difference value）极小。

消融实验

在这里插入图片描述

编解码器的必要性 (A, B)：移除 PCA (A) 导致 PSNR 断崖式下跌至 15.788，移除 RWA (B) 虽然 PSNR 有 25.640，但远不及完整版的 27.013 。这证明了两者结合 (RWA+PCA) 的强大压缩重建能力。
几何先验的有效性 (C, D)：移除边缘扰动 © 或掩膜条件 (D)，全局指标（如 PSNR）下降不明显（26.579, 26.681），但在实际视觉效果上，这两者对保持建筑物边缘不失真起到了决定性作用。
3D U-Net 与 SFE 的威力 (H, I)：将 3D U-Net 降级为 2D U-Net (I) 或移除光谱保真度增强器 SFE (H)，会导致光谱角 SAM 和 FID 显著变差，证明了 3D 卷积和光谱注意力机制对 HSI 的不可替代性。

编解码器性能探究

在这里插入图片描述

模型鲁棒性实验

在这里插入图片描述
条件扰动实验

分割模型误差：随机掩码侵蚀/膨胀 (1-3像素) + 随机空间平移 (±1-2像素)
传感器噪声：低分辨率输入添加 1% 高斯噪声
SSIM, SAM变换很少，PSNR下降在可接受范围内
模型可以泛化到理想掩码条件之外，在真实噪声和边界偏差下保持稳定性能

真实卫星图像超分

在这里插入图片描述
评价一个遥感基础模型的最终落脚点是其工程实用价值。 GEWDiff 不仅能无缝衔接现有的 EnMAP 与 Sentinel 卫星工作流，更在实际的下游土地覆盖分类任务中，显著提升了总体精度。展示模型如何将低分辨率的 EnMAP (30m) 与 Sentinel-2 (10m) 融合后，进一步利用 GEWDiff 生成了高达 2.5m 分辨率的超高质高光谱图像。

下游地物分类任务

在这里插入图片描述
视觉比较揭示了建筑区和植被之间更清晰的区分，以及对不透水结构的更精确的检测。这些结果表明，GEWDiff不仅对光谱数据进行上采样，而且生成能够区分更多类别特征并提高下游辨别能力的表示。因此，即使监管信息有限和训练样本数量较少，该模型也可以为实际的遥感应用带来切实的好处。

总结

在这里插入图片描述

参考

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

ChatClient 全家桶保姆级博客讲解

AtomGit开源社区

C# + 机器视觉 + AI：从工业相机取图到 YOLO 目标检测的完整工控解决方案

文章摘要：本文介绍了一个基于C#和YOLOv8的工业视觉检测系统完整实现方案。系统通过海康工业相机SDK实时采集图像，在WinForms界面显示后，调用Python+YOLOv8模型进行目标检测，并支持通过Modbus TCP与PLC联动控制。文章详细讲解了环境配置、系统架构设计、相机图像采集（含C#代码示例）以及Python端YOLO推理脚本的实现方法。该方案可直接应用于工业质检、目标识别等场