PUSHING TRADE-OFF BOUNDARIES: COMPACT YET EFFECTIVEREMOTE SENSING CHANGE DETECTION

想要优秀点儿

391人浏览 · 2026-03-24 16:27:50

想要优秀点儿 · 2026-03-24 16:27:50 发布

ABSTRACT

遥感变化检测对于监测城市扩张、灾害评估和资源管理至关重要，能够及时、准确且大尺度地揭示地表景观的动态变化。尽管深度学习推动了变化检测领域的变革，但现代模型日益复杂的架构和计算需求并未带来相应的显著精度提升。本研究未追随这一趋势，而是探索一种更高效的方案，聚焦于在保持高精度的同时最小化资源消耗的轻量化模型——这是星载处理的必要前提。为此，我们提出FLICKCD（意为“快速轻扫即获卓越结果”），旨在突破性能-资源权衡的边界。FLICKCD引入增强差分模块（EDM），在抑制光照、天气变化等无关干扰的同时，放大双时相影像间的关键特征差异，从而降低后续变化解码器的计算成本。此外，FLICKCD的解码器融合了局部-全局融合模块，通过移位窗口自注意力和高效全局自注意力机制，有效捕获多尺度语义信息，完整保留粗粒度与细粒度变化特征。在四个基准数据集上的大量实验表明，FLICKCD在实现最先进性能或仅以微小（<1% F1值）精度损失为代价的前提下，将计算量与存储开销降低了一个数量级以上。公开代码见：https://github.com/xulsh8/FlickCD。

1 Introduction

随着遥感技术的飞速发展，获取高分辨率遥感影像的数量持续增长。这些海量优质数据资源极大推动了各类遥感应用的发展，其中变化检测（CD）作为核心任务已取得显著成效。CD技术通过分析不同时期获取的多时相遥感影像，旨在识别同一区域内的变化特征。该技术可广泛应用于灾害损失评估[1,2]、城市规划[3,4]、农业管理[5]及环境监测[6]等多个领域。通过CD技术，我们能够更全面地理解区域差异特征，从而有效预测未来变化趋势并制定相应应对措施。

随着深度学习在各类计算机视觉任务中取得日益显著的成功，它也逐渐成为变化检测领域的有力工具。然而，基于深度学习的变化检测方法面临两大挑战。第一个挑战是如何更好地平衡模型性能与资源需求。为了获得更强的特征提取能力，变化检测模型往往大幅增加深度或宽度。例如，RCTNet [7] 通过堆叠卷积层来融合多尺度特征图以增加模型深度，而 ChangeMamba [8] 则利用状态空间模型扩展感受野以捕捉全局语义信息。然而，这些操作需要大量参数和计算资源，使得难以将其部署在资源受限的设备上，例如常用于获取遥感图像的无人机和卫星。目前，针对轻量化变化检测模型也已开展了一些研究 [9, 10]，但实现轻量化设计往往会导致性能下降，并削弱差异信息的提取能力。

第二个挑战是如何在聚焦捕捉显著变化的同时，忽略不相关的差异。光照变化、大气条件及季节变化等多种因素都可能引发不相关的差异。为了提取两时相影像之间的关键变化信息，各类变化检测模型采用了不同的方法。大多数模型通过特征图相减并取绝对值来获取差异信息[11, 9, 7]；部分模型将两时相特征图沿通道维度拼接，再利用卷积运算提取差异信息[12, 10]；另一些模型则通过分层或多级特征融合来实现这一目标[8, 13]。然而，这些方法各有局限：有些方法难以滤除不相关的变化，使得模型无法区分细微差异与关键变化；另一些方法则需要消耗大量计算资源和参数来获取差异信息，从而增加了模型的整体资源需求。

为应对上述挑战，我们提出flickcd模型——一种在资源效率与性能之间取得优异平衡的轻量级模型。如图1所示，我们选取了若干轻量级模型与前沿模型进行对比。实验结果表明，flickcd在保持轻量级设计的同时，其平均性能已接近前沿模型水平。

FLICKCD 采用编码器-解码器架构，并选用 RepViT [14] 作为其编码器。该编码器具有低延迟和参数量少的优点。与大多数变化检测模型不同，我们仅使用编码器前三阶段提取的特征图，因为我们观察到加入更高层的特征并不会显著提升模型性能，反而会大幅增加参数量和计算成本。在通过共享权重的编码器提取两时相影像的特征图后，我们采用增强差分模块（EDM）来捕捉二者之间的差异信息。轻量级的 EDM 能够增强差异特征，同时抑制不相关的噪声，从而帮助解码器更准确地提取出感兴趣的变化特征。随后，我们采用自底向上、逐层融合的方式设计解码器。在融合之前，我们引入局部-全局融合块（LGFB）来进一步整合特征。LGFB 主要利用注意力机制，由两个组件构成：滑动窗口自注意力（SWSA）和高效全局自注意力（EGSA）。SWSA 使用基于窗口的注意力将关注范围限制在局部区域，这有助于模型更好地捕捉邻近像素之间的空间关系，提高局部物体识别的准确性。随后，利用 EGSA 来考虑全局范围内像素之间的关系，当变化区域由许多相似的小区域组成时，这一点尤为关键。经过多尺度特征的提取与融合后，最终生成高质量的二元变化图作为输出结果。

通过大量实验，我们验证了flickcd中各模块的有效性，并证明与其它模型相比，flickcd实现了更优的性能折衷与更高效率。我们的研究贡献可归纳如下：

我们开发了轻量级变化检测模型flickcd，并设计了一种高效的轻量级解码器，能够有效提取局部与全局语义信息。
我们提出增强差异模块（EDM），该模块在保留关键差异信息的同时过滤无关变化噪声，从而帮助模型精准捕捉变化特征。
通过实验验证flickcd在当前变化检测模型中的效率表现，该模型在保持高性能的同时实现了低参数量与低计算成本，并在部分数据集上达到业界领先水平。

2 Related Work

2.1 Deep Learning-based Change Detection

随着深度学习技术取得显著成功并展现出高性能，变化检测领域越来越多地采用这些技术来解决变化检测任务。最早的基于CNN的方法之一是FC系列[15]，该系列引入了两种处理双时相输入的基本策略：（1）早期融合，即先将两幅输入图像拼接，再输入网络；（2）孪生架构，即使用共享权重的编码器分别处理两幅图像，然后进行差分计算。这两种策略为后续大多数变化检测模型奠定了基础。此后，基于注意力机制的Transformer架构的出现，为变化检测带来了新的可能性。例如，BIT [11]采用CNN主干网络进行编码和解码，同时利用Transformer捕捉输入图像之间的差异。ChangeFormer [12]则进一步推进了这一方向，直接应用共享权重的Transformer来处理变化检测任务。除了传统的全局自注意力之外，针对变化检测定制的各种注意力机制也得到了探索，包括空间与通道注意力[16, 17, 18]以及交叉注意力机制[19]，这些机制提升了变化检测模型的有效性和鲁棒性。

2.2 Lightweight Strategies in Deep Learning

在模型效率与性能之间取得理想的平衡始终是一个关键的研究方向。为了能在资源受限的设备上部署深度学习模型，针对不同的模型架构，研究者提出了多种轻量化策略。在基于CNN的策略中，深度可分离卷积[20]通过解耦空间维度和通道维度来提取特征；分组卷积[21]将通道划分为若干组，并在每组内独立进行卷积运算；较新的FasterNet[22]引入了部分卷积，仅对特征图中的部分通道进行计算。在基于Transformer的策略中，轻量化主要通过两种方式实现：第一种是将注意力计算范围限制在局部窗口或稀疏区域[14, 23, 24]。虽然这种策略可能导致信息损失，但将有限的参数分配给更可能相关的token，可以在减少冗余信息的同时将性能损失降至最低；第二种是利用权重共享映射来获取注意力矩阵[23, 25]。对相关区域应用相同的线性映射，既可以减少参数量，又能将它们投影到同一个高维空间。针对变化检测任务的轻量化模型也有相关研究。USSFC-Net [9]循环使用空洞卷积作为基本模块，并通过堆叠该模块构建编码器和解码器；TinyCD [10]采用三阶段的EfficientNet [26]作为骨干网络，并利用分组卷积来计算差异信息。尽管这些网络参数量较少，但仍存在延迟较高、性能偏低的问题。

3 Method

3.1 Overview

模型结构的总体框架如图2(a)所示。首先，我们将具有W×H×3维度的双时序图像T1和T2输入权重共享编码器。我们选用预训练权重的RepViT[14]最轻量级版本作为编码器，并仅使用编码器前三个阶段生成的特征图。实验结果表明：一方面，第四阶段生成的特征图并未提升模型性能；另一方面，移除该阶段可有效降低参数量与计算复杂度。该优化过程可表述为：

3.2 Enhanced Difference Module

如何有效提取两时相影像之间的差异信息是变化检测任务的主要挑战之一。提取差异的常用方法是直接将两个特征图相减并取绝对值。然而，由于这种方法对所有像素采用等权重的逐像素差分计算，由无关因素引起的差异会与有意义的变化信息一同被保留并传递到解码器中。这使得解码器难以准确识别关键变化，从而导致精度下降。为解决这一问题，我们提出了增强差分模块（EDM），该模块为逐像素差异动态分配权重，从而使模型能够滤除无关差异，并增强对关键变化信息的识别能力。

EDM的详细架构如图2(b)所示。对于给定的第i阶段EDM模块，其输入为对应的特征图 \( f1_i \) 和 \( f2_i \)。由于逐像素差异的大小需要考虑局部上下文信息，我们首先使用深度可分离卷积来增强局部特征聚合。随后，通过一个压缩-激励模块和一个1×1卷积层，用于执行动态的通道级加权并相应地调整输出通道数。

3.3 Local-Global Fusion Block

在获取两个特征图之间的差异图Di后，进一步捕捉变化区域间的关系信息至关重要。基于以下观察结果，我们在局部和全局尺度上提取关系特征：

在局部尺度上，当某一特定区域被其他变化区域所包围时，该区域极有可能也发生了变化。对这种局部关系进行建模有助于减少检测到的变化区域中出现空洞或碎片化现象。
在全局尺度上，通过利用全局上下文信息，模型可以增强整体特征表示，从而提升变化区域与未变化区域之间的可区分性，有助于更准确地勾勒变化区域的边界。

为实现上述目标，我们提出了局部-全局融合块（LGFB）。该模块由两个关键组件构成：滑动窗口自注意力（SWSA）和高效全局自注意力（EGSA）。前者旨在捕捉空间邻近区域内像素间的局部关系信息，而后者则专注于建模长程依赖并增强特征表示。LGFB的详细架构如图3所示。从结构上看，LGFB是一个类似Transformer的模块。然而，传统的自注意力机制通常计算量和参数量较大。为解决这一问题，我们采用了更高效的设计，具体描述如下。

Token混合器与通道混合器。 受RepViT [14]启发，我们将注意力计算分解为两个阶段：Token混合器和通道混合器，前者负责聚合空间信息，后者专注于通道间的交互。具体而言，在SWSA和EGSA模块中，我们采用深度可分离卷积进行线性投影。投影后的矩阵随后被输入到注意力机制中，以高效地交换空间信息，作为轻量级的Token混合器。该过程可形式化表示为：

其中，I 表示SWSA和EGSA模块的输入。随后，采用由两个 1×1 卷积层组成的多层感知机（MLP），沿通道维度进行信息交换，作为通道混合器。该过程可形式化表示为：

Sliding Window Self-Attention.为了使模型聚焦于局部像素级关系，我们将注意力计算约束在滑动窗口内。引入步长参数 \( s \) 来控制窗口在整个特征图上的移动方式，并生成最终的注意力输出。窗口大小 \( w \) 和步长 \( s \) 均作为超参数处理。当窗口大小等于步长（\( w = s \)）时，特征图被划分为不重叠的区块，并在每个区块内独立计算注意力。相比之下，当窗口大小大于步长（\( w > s \)）时，每个窗口内仅保留部分计算得到的注意力作为区块输出，从而形成重叠的感受野，其中区块大小为 \( s \times s \)。在变化区域形状复杂的场景下，使用较大的窗口并采用重叠感受野可增强相邻区域间的空间连续性。相反，对于形状复杂度较低的区域（如规则的建筑物变化），设置窗口大小等于步长足以捕捉局部模式，既能避免不必要的上下文冗余，又可减少额外的计算开销。

Efficient Global Self-Attention.

Hierarchical Feature Integration.轻量化解码器以三个层级阶段生成的多尺度差异特征 \( D_i \)，\( i \in \{1, 2, 3\} \) 作为输入。其中，高层级差异图的空间分辨率较低，但蕴含更丰富的变化区域语义信息；而低层级差异图保留了更精细的空间细节（如目标边界），但在区分真实变化方面可靠性较低。为充分利用不同层级的互补优势，我们采用渐进式融合策略。如图2(a)所示，每个高层级差异图首先经LGFB处理，随后通过逐元素相加与对应低层级差异图进行融合。接着使用深度可分离卷积对融合后的特征进行细化，实现局部调整。然而，仅依靠这种局部融合不足以捕捉空间远距离区域间的长程依赖。因此，我们在局部融合之后进一步引入EGSA，进行全局细化并提升融合质量。