PR 2023ICAfusion: Iterative cross-attention guided feature fusion for multispectral object detection

terrygim_123

383人浏览 · 2026-04-15 16:15:37

terrygim_123 · 2026-04-15 16:15:37 发布

01 论文信息

论文题目： ICAfusion: Iterative cross-attention guided feature fusion for multispectral object detection
论文作者： Jifeng Shen, Yifei Chen, Yue Liu, Xin Zuo, Heng Fan, Wankou Yang
发表单位： School of Electrical and Information Engineering, Jiangsu University, Zhenjiang, 212013, China; School of Computer Science and Engineering, Jiangsu University of Science and Technology, Zhenjiang, 212003, China; Department of Computer Science and Engineering, University of North Texas, Denton, TX 76207, USA; School of Automation, Southeast University, Nanjing, 210096, China
发表会议\期刊： Pattern Recognition (2024)
代码链接： https://github.com/chanchanchan97/ICAFusion

02 论文主要贡献

双跨注意力特征融合方法：提出了一种新的双跨注意力特征融合方法，用于多光谱目标检测，同时聚合RGB和热图像的互补信息。
迭代学习策略：为高效多光谱特征融合量身定制了一种迭代学习策略，在不增加可学习参数的情况下进一步提高模型性能。
通用性和有效性：提出的特征融合方法具有通用性和有效性，可以插入到不同的主干网络中，并配备不同的检测框架。
多模态处理能力：提出的CFE/ICFE模块可以处理不同的输入图像模态，当其中一种模态缺失或质量较差时提供可行的解决方案。
优越的性能：提出的方法在KAIST、FLIR和VEDAI数据集上取得了最先进的结果，同时获得了非常快的推理速度。

03 论文创新点

双跨注意力融合机制：提出了双跨注意力特征融合方法，通过查询引导的跨注意力机制增强目标特征的判别能力，同时建模全局特征交互。
迭代特征融合：受人类复习知识过程的启发，提出了迭代交互机制，在块级多模态Transformer之间共享参数，减少模型复杂度和计算成本。
空间特征压缩：引入了空间特征压缩（SFS）模块，通过卷积和池化操作降低特征图尺寸，减少后续计算成本，同时保留重要信息。

04 方法

在这里插入图片描述

4.1 架构

提出的方法是一个双分支主干网络，专为从RGB-热图像对中提取特征而设计。该方法主要包括三个阶段：单模态特征提取、双模态特征融合以及检测颈部和头部。

单模态特征提取：首先分别对RGB和热图像进行独立的特征提取，可表示为：
( F^i_R = si_{backbone}(I_R; heta_R), F^i_T = si_{backbone}(I_T; heta_T) )
其中( F^i_R, F^i_T \in R^{W×H×C} )表示RGB和热分支第i层的特征图，( I_R, I_T \in R^{W×H×C} )表示输入的RGB和热图像。
双模态特征融合：给定特征图( F^i_R )和( F^i_T )，需要进行跨模态特征融合，可定义为：
( F^i_{R+T} = hi_{fusion}(F^i_R; F^i_T; heta_f) )
其中( F^i_{R+T} \in R^{W×H×C} )表示第i层的融合特征。
检测颈部和头部：来自( {F^{i_{R+T}}_{i=1}}L )的特征图被馈送到检测器颈部进行多尺度特征融合，然后传递到检测器头部进行后续的分类和回归。

4.2 双模态特征融合（DMFF）

双模态特征融合模块主要包含三个组件：空间特征压缩（SFS）模块、迭代跨模态特征增强（ICFE）模块和具有NIN融合的双模态特征融合模块。
在这里插入图片描述

4.2.1 跨模态特征增强（CFE）

提出的CFE模块使单模态能够从全局角度学习来自辅助模态的更多互补信息。该模块不仅检索RGB和热模态之间的互补关系，还克服了建模跨模态特征长距离依赖的不足。

给定输入特征图( F_R )和( F_T \in R^{H×W×C} )，首先将每个特征图展平为一组令牌，并添加可学习的位置嵌入。然后，采用双CFE模块分别增强RGB和热特征。

CFE模块的工作流程如下：

将热模态的令牌( T_T )投影到两个单独的矩阵( V_T, K_T \in R^{HW×C} )以计算一组值和键。
将RGB模态的令牌( T_R )投影到另一个单独的矩阵( Q_R \in R^{HW×C} )以计算一组查询。
通过点积操作构建相关矩阵，然后通过softmax函数归一化相关分数，代表RGB和热模态不同特征之间的相似性。
通过将相关矩阵与向量( V_T )相乘获得向量( Z_T )，通过利用跨模态的相似性来细化RGB特征。
通过非线性变换将向量( Z_T )重新投影回原始空间，并通过残差连接添加到输入序列。
应用前馈网络（FFN）进一步细化全局信息，以提高模型的鲁棒性和准确性，并输出增强的特征( at{T}_T )。

4.2.2 空间特征压缩（SFS）

为了降低后续模块的计算成本，同时减少特征图中的信息损失，在CFE模块之前应用了SFS模块来压缩特征图。该模块尝试两种不同的方法：

卷积操作：基于卷积操作的维度 reduction方法，通过重塑特征图的维度，将特征的空间信息转换到通道维度，然后使用1×1卷积操作压缩通道维度。
池化操作：聚合平均池化和最大池化，自适应地保留图像中的背景信息和纹理特征。

4.2.3 迭代跨模态特征增强（ICFE）

为了加强来自跨模态和内模态特征的互补信息的记忆，以进一步提高模型性能，引入了基于CFE模块的迭代学习策略，称为ICFE模块。

与传统方法通过堆叠多个模块来提高性能不同，提出的迭代学习策略通过共享参数在多次迭代中加深网络深度，并在不增加参数数量的情况下逐步细化跨模态的互补信息。

4.2.4 检测头的融合模式

提出的CFE模块可以处理不同的输入模态，研究了四种不同的融合模式：

仅输出单模态特征，迫使CFE-R和CFE-T模块分别从热图像和RGB图像特征中收集互补特征。
使用具有共享和非共享参数的双CFE模块。
使用NIN融合方法的基线特征融合。

所有这些融合的特征图将被馈送到检测头，用于后续的分类和回归任务。

05 实验分析

主要分析 SOTA 对比表以及消融实验。

5.1 数据集和评估指标

数据集：

KAIST 数据集：一个流行的多光谱行人检测基准，包含不同光照条件的场景。训练集有8,963对弱对齐图像对，测试集有2,252对，分辨率为640×512。
FLIR 数据集：一个具有挑战性的多光谱目标检测数据集，包括白天和夜间场景。共有5,142对对齐的多光谱图像对，其中4,129用于训练，1,013用于测试。
VEDAI 数据集：一个用于航空图像中小目标检测的公共数据集，包含1,268对RGB-红外图像对，超过3,700个标注目标，9个车辆类别。

评估指标：

对数平均漏检率（MR-2）：用于KAIST数据集的评估，代表9个FPPI值下的平均漏检率，值越低性能越好。
平均精度（AP）：目标检测的常见评估指标，值越高性能越好。

5.2 实验结果分析

与基线方法的比较：
- 在KAIST数据集上，提出的方法将MR从8.33%降低到7.63%，性能提升显著。
- 在FLIR数据集上，提出的方法将mAP50从76.5%提高到77.5%，性能提升明显。
与最先进方法的比较：
- 提出的方法在KAIST、FLIR和VEDAI数据集上均取得了最先进的结果，同时获得了非常快的推理速度。
消融实验：
- 可学习参数的影响：在CFE模块的残差连接上应用可学习参数，在KAIST数据集上将MR从7.86%降低到7.63%，在FLIR数据集上将mAP50从77.1%提高到77.5%。
- CFE模块的效果：
  - 增强RGB特征的CFE模块在KAIST和FLIR数据集上分别比仅RGB的单分支方法提升了0.65%和0.90%。
  - 增强热特征的CFE模块在KAIST和FLIR数据集上分别比仅热的检测器提升了0.59%和1.20%。
  - 双CFE模块在KAIST和FLIR数据集上分别比基线方法提升了0.70%和1.00%。
- 堆叠模块数量的影响：随着堆叠模块数量增加到10，参数数量和GPU内存增加了4倍以上，而运行速度从40.5 Hz急剧下降到17.3 Hz，mAP仅获得0.70%的边际收益。
- 迭代次数的影响：仅一次迭代，迭代学习方法在KAIST数据集上将MR从7.63%降低到7.17%，在FLIR数据集上将mAP50从77.50%提高到79.20%。额外的迭代并没有提高性能，一次迭代在实验中取得了最佳结果。

5.3 计算效率

计算复杂度：与CFT方法相比，提出的方法具有更低的计算复杂度，总计算复杂度从( O(4T^2×C + 16T×C^2) )降低到( O(2T^2×C + 16T×C^2) )。
推理速度：提出的方法具有更快的推理速度，在FLIR数据集上达到了36.7 FPS，而堆叠方法的推理速度仅为17.3 FPS。
内存使用：由于采用了迭代学习策略和空间特征压缩模块，提出的方法在保持高性能的同时，内存使用也得到了有效控制。