基于自适应残差引导子空间扩散模型的自学习高光谱与多光谱图像融合-CVPR2025

一无所知728

387人浏览 · 2026-03-24 16:12:40

一无所知728 · 2026-03-24 16:12:40 发布

本文为作者根据近期科研情况选取，如有推荐，在评论区回复即可。

Self-Learning Hyperspectral and Multispectral Image Fusion via Adaptive Residual Guided Subspace Diffusion Model

基于自适应残差引导子空间扩散模型的自学习高光谱与多光谱图像融合

期刊：Conference on Computer Vision and Pattern Recognition (CVPR)

论文链接：Self-Learning Hyperspectral and Multispectral Image Fusion via Adaptive Residual Guided Subspace Diffusion Model | IEEE Conference Publication | IEEE Xplore

年份：2025

关键词：高光谱与多光谱图像融合，扩散模型

创新点：

1.提出一种自学习自适应残差引导子空间扩散模型（ARGS‑Diff），通过专门设计的轻量化光谱与空间网络，从观测到的低分辨率高光谱图像（LR‑HSI）和高分辨率多光谱图像（HR‑MSI）中有效学习光谱与空间分布，并由估计得到的光谱基与降维系数重构出高分辨率高光谱图像（HR‑HSI）--提出一种扩散网络

2.引入自适应残差引导模块（ARGM），通过残差引导函数对光谱分量与空间分量进行精细化优化，有效提升采样过程的稳定性与收敛速度。--提出ARGM模块

3.在四个数据集上开展了大量实验，结果表明所提方法的性能优于现有最优方法--效果好

方法概括：

ARGS-Diff 是一种面向高光谱与多光谱融合的自学习扩散方法。它先将目标高分辨率高光谱图像分解为光谱基和降维系数两个低维子空间分量，再分别利用 LR-HSI 和 HR-MSI 训练轻量级光谱网络与空间网络，在反向扩散过程中逐步恢复这两个分量，最终重建 HR-HSI。与此同时，方法引入 ARGM 自适应残差引导模块，在每一步采样后依据观测残差对两个分量进行联合校正，从而提升采样稳定性、融合精度与计算效率

1. 研究背景

高光谱与多光谱图像融合（HSI-MSI Fusion）的目标，是利用低空间分辨率高光谱图像（LR-HSI）中的丰富光谱信息，以及高空间分辨率多光谱图像（HR-MSI）中的清晰空间结构信息，重建出同时具有高空间分辨率和高光谱分辨率的图像（HR-HSI）。这一任务在遥感场景中非常重要，因为实际传感器往往难以同时获得高空间分辨率和高光谱分辨率，只能在两者之间进行权衡。

从方法发展来看，早期方法主要分为两类：一类是基于模型的方法，依赖人工设计先验；另一类是基于深度学习的方法，依赖大量成对训练数据。前者具有一定可解释性，但对复杂高维非线性特征的建模能力有限；后者虽然性能更强，但在高光谱领域往往面临监督数据稀缺的问题。

2. 为什么要引入扩散模型

近年来，扩散模型在图像生成、重建和超分辨率任务中表现突出。它的基本思想是：前向过程逐步向数据中加入噪声，反向过程再通过网络逐步去噪，从而恢复出目标图像。相比传统生成模型，扩散模型通常具有训练稳定、生成质量高的优点，因此也开始被引入到高光谱与多光谱融合任务中。

不过，把扩散模型直接用于 HSI-MSI 融合也会遇到明显问题。一方面，高质量重建通常需要较多采样步数，推理速度偏慢；另一方面，每一步采样都伴随着较高的显存和计算开销，这对遥感应用中的资源受限设备并不友好。论文正是在这个背景下，提出了一种更轻量、更高效的扩散式融合方法——ARGS-Diff。

3. ARGS-Diff 的核心思想

ARGS-Diff 的全称是 Adaptive Residual Guided Subspace Diffusion Model。这篇文章最核心的想法，不是直接用扩散模型去生成整幅高分辨率高光谱图像，而是先把 HR-HSI 分解为两个低维子空间成分：光谱基（spectral basis） 和 降维系数（reduced coefficient）。其中，光谱基主要描述高光谱图像的光谱结构，降维系数主要描述空间分布。最后再通过这两个低维成分的组合，恢复出完整的 HR-HSI。

这样的设计有两个明显好处。第一，它把原本高维、复杂的重建问题，转化为了两个更低维、更容易建模的子问题；第二，它天然适合融合 LR-HSI 和 HR-MSI 的互补信息，因为 LR-HSI 更擅长提供光谱信息，HR-MSI 更擅长提供空间信息。

4. 自学习子空间网络

为了分别恢复这两个低维成分，论文设计了两个轻量级网络：一个是光谱网络，另一个是空间网络。其中，光谱网络从 LR-HSI 中学习光谱分布，空间网络从 HR-MSI 中学习空间分布。与很多传统深度学习方法不同，ARGS-Diff 并不依赖额外的大规模训练集，而是只利用当前观测到的 LR-HSI 和 HR-MSI 自身进行训练。这也是它被称为 self-learning 方法的重要原因。

这种“自学习”思路非常适合高光谱融合任务。因为在真实遥感应用中，严格配准且成对的高质量 HR-HSI 标注数据很难获取，而 ARGS-Diff 不再强依赖这种监督数据，而是直接从当前输入图像中挖掘空间和光谱先验。这样既减轻了数据依赖，也提高了方法在实际场景中的适用性。

光谱网络选择五层全连接网络，空间网络选择Unet-like网络

5. 子空间反向扩散过程

在获得两个子空间分量之后，论文进一步将扩散模型引入到恢复过程中。具体来说，它并不是在像素空间中直接做高维扩散，而是在子空间中分别对光谱基和降维系数进行反向扩散恢复。也就是说，扩散模型的生成过程被拆成了两个并行但相互关联的过程：一个负责逐步恢复光谱成分，另一个负责逐步恢复空间成分。

这种做法相比直接对整幅 HR-HSI 做扩散，参数更少，计算更轻，同时还能更有针对性地建模光谱与空间信息。你也可以把它理解为：论文没有让一个“大模型”去硬学所有内容，而是通过任务分解，让不同模块各自处理自己最擅长的部分。

6. ARGM：自适应残差引导模块

除了子空间扩散之外，论文另一个很重要的设计是 ARGM（Adaptive Residual Guided Module），也就是自适应残差引导模块。作者指出，在采样过程中，光谱基和降维系数需要同步更新，但两者如果更新不同步，就可能导致采样不稳定，甚至出现崩溃。为了解决这个问题，ARGM 在每一步采样后都会计算当前重建结果与目标之间的残差，再利用残差信息去修正这两个分量，使它们更好地朝真实解靠近。

换句话说，ARGM 相当于给扩散采样过程加上了一层“纠偏机制”。它不是单纯相信网络当前的预测结果，而是在每一步都检查一下“现在恢复得对不对”，如果不够一致，就通过残差引导进行修正。正是这个模块，提升了整个采样过程的稳定性和鲁棒性，也成为 ARGS-Diff 区别于一般扩散融合方法的重要亮点。

算法流程如下：

7. 方法优势与实验表现

从论文的实验结果来看，ARGS-Diff 不仅在重建质量上优于已有方法，在模型规模和计算效率上也有明显优势。论文给出的结果显示，ARGS-Diff 的参数量只有 21.85M，显著低于对比扩散方法；显存占用为 2.11GB，采样时间约 12 秒，相比 PLRDiff 和 S2CycleDiff 都更轻量、更快。也就是说，它并不是单纯追求效果，而是在效果、模型大小和运行效率之间取得了更好的平衡。

这也是我觉得这篇文章比较有意思的地方：它没有一味堆大模型，而是通过“子空间分解 + 轻量网络 + 残差引导”的方式，把扩散模型做得更适合高光谱融合任务本身。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

Dario Amodei发布《Policy on the AI Exponential》：用霍比特人比喻呼吁政治体制追上AI速度

2026年6月11日，Anthropic联合创始人兼CEO Dario Amodei在其个人博客darioamodei.com发布了一篇引发业界广泛关注的Policy长文——《Policy on the AI Exponential》（AI指数级增长政策论）。这是继去年Mythos/Fable争议之后，Anthropic管理层首次系统性地向外阐述其完整的AI治理框架与政策主张。

AtomGit开源社区

Google开源DiffusionGemma：26B MoE扩散语言模型，放弃自回归实现4倍推理加速

2026年6月11日，Google正式发布实验性开源模型DiffusionGemma，以Apache 2.0许可证开放。这是一款基于文本扩散（Text Diffusion）机制构建的大语言模型，采用26B参数的MoE（Mixture of Experts，混合专家）架构，推理时仅激活约3.8B参数。与传统自回归（Autoregressive）大语言模型逐token顺序生成的方式不同，Diffusi

AtomGit开源社区

AIGC挖出秋衣卖不动原因

公司三大旗舰产品——“先知大模型”、“先行AI商学院”、“先知AIGC超级工场”，搭配先知大模型私有化部署、先知AIGC超级工场、AI训练师、先知人力资源服务、先知产业联盟五大核心业务，形成了一套完整的“需求洞察-设计验证-销售预测”闭环。去年秋季某品牌一口气上了18个新款，请了明星代言，投了近百万元信息流广告，结果整个季度下来，只有2个款勉强保本，其余16个款成了压在仓库里的“僵尸库存”。那些还