01 论文信息

  • 论文题目: ICAfusion: Iterative cross-attention guided feature fusion for multispectral object detection
  • 论文作者: Jifeng Shen, Yifei Chen, Yue Liu, Xin Zuo, Heng Fan, Wankou Yang
  • 发表单位: School of Electrical and Information Engineering, Jiangsu University, Zhenjiang, 212013, China; School of Computer Science and Engineering, Jiangsu University of Science and Technology, Zhenjiang, 212003, China; Department of Computer Science and Engineering, University of North Texas, Denton, TX 76207, USA; School of Automation, Southeast University, Nanjing, 210096, China
  • 发表会议\期刊: Pattern Recognition (2024)
  • 代码链接: https://github.com/chanchanchan97/ICAFusion

02 论文主要贡献

  1. 双跨注意力特征融合方法:提出了一种新的双跨注意力特征融合方法,用于多光谱目标检测,同时聚合RGB和热图像的互补信息。
  2. 迭代学习策略:为高效多光谱特征融合量身定制了一种迭代学习策略,在不增加可学习参数的情况下进一步提高模型性能。
  3. 通用性和有效性:提出的特征融合方法具有通用性和有效性,可以插入到不同的主干网络中,并配备不同的检测框架。
  4. 多模态处理能力:提出的CFE/ICFE模块可以处理不同的输入图像模态,当其中一种模态缺失或质量较差时提供可行的解决方案。
  5. 优越的性能:提出的方法在KAIST、FLIR和VEDAI数据集上取得了最先进的结果,同时获得了非常快的推理速度。

03 论文创新点

  1. 双跨注意力融合机制:提出了双跨注意力特征融合方法,通过查询引导的跨注意力机制增强目标特征的判别能力,同时建模全局特征交互。
  2. 迭代特征融合:受人类复习知识过程的启发,提出了迭代交互机制,在块级多模态Transformer之间共享参数,减少模型复杂度和计算成本。
  3. 空间特征压缩:引入了空间特征压缩(SFS)模块,通过卷积和池化操作降低特征图尺寸,减少后续计算成本,同时保留重要信息。

04 方法

在这里插入图片描述

4.1 架构

提出的方法是一个双分支主干网络,专为从RGB-热图像对中提取特征而设计。该方法主要包括三个阶段:单模态特征提取、双模态特征融合以及检测颈部和头部。

  1. 单模态特征提取:首先分别对RGB和热图像进行独立的特征提取,可表示为:
    ( F^i_R = si_{backbone}(I_R; heta_R), F^i_T = si_{backbone}(I_T; heta_T) )
    其中( F^i_R, F^i_T \in R^{W×H×C} )表示RGB和热分支第i层的特征图,( I_R, I_T \in R^{W×H×C} )表示输入的RGB和热图像。

  2. 双模态特征融合:给定特征图( F^i_R )和( F^i_T ),需要进行跨模态特征融合,可定义为:
    ( F^i_{R+T} = hi_{fusion}(F^i_R; F^i_T; heta_f) )
    其中( F^i_{R+T} \in R^{W×H×C} )表示第i层的融合特征。

  3. 检测颈部和头部:来自( {Fi_{R+T}}_{i=1}L )的特征图被馈送到检测器颈部进行多尺度特征融合,然后传递到检测器头部进行后续的分类和回归。

4.2 双模态特征融合(DMFF)

双模态特征融合模块主要包含三个组件:空间特征压缩(SFS)模块、迭代跨模态特征增强(ICFE)模块和具有NIN融合的双模态特征融合模块。
在这里插入图片描述

4.2.1 跨模态特征增强(CFE)

提出的CFE模块使单模态能够从全局角度学习来自辅助模态的更多互补信息。该模块不仅检索RGB和热模态之间的互补关系,还克服了建模跨模态特征长距离依赖的不足。

给定输入特征图( F_R )和( F_T \in R^{H×W×C} ),首先将每个特征图展平为一组令牌,并添加可学习的位置嵌入。然后,采用双CFE模块分别增强RGB和热特征。

CFE模块的工作流程如下:

  1. 将热模态的令牌( T_T )投影到两个单独的矩阵( V_T, K_T \in R^{HW×C} )以计算一组值和键。
  2. 将RGB模态的令牌( T_R )投影到另一个单独的矩阵( Q_R \in R^{HW×C} )以计算一组查询。
  3. 通过点积操作构建相关矩阵,然后通过softmax函数归一化相关分数,代表RGB和热模态不同特征之间的相似性。
  4. 通过将相关矩阵与向量( V_T )相乘获得向量( Z_T ),通过利用跨模态的相似性来细化RGB特征。
  5. 通过非线性变换将向量( Z_T )重新投影回原始空间,并通过残差连接添加到输入序列。
  6. 应用前馈网络(FFN)进一步细化全局信息,以提高模型的鲁棒性和准确性,并输出增强的特征( at{T}_T )。
4.2.2 空间特征压缩(SFS)

为了降低后续模块的计算成本,同时减少特征图中的信息损失,在CFE模块之前应用了SFS模块来压缩特征图。该模块尝试两种不同的方法:

  1. 卷积操作:基于卷积操作的维度 reduction方法,通过重塑特征图的维度,将特征的空间信息转换到通道维度,然后使用1×1卷积操作压缩通道维度。

  2. 池化操作:聚合平均池化和最大池化,自适应地保留图像中的背景信息和纹理特征。

4.2.3 迭代跨模态特征增强(ICFE)

为了加强来自跨模态和内模态特征的互补信息的记忆,以进一步提高模型性能,引入了基于CFE模块的迭代学习策略,称为ICFE模块。

与传统方法通过堆叠多个模块来提高性能不同,提出的迭代学习策略通过共享参数在多次迭代中加深网络深度,并在不增加参数数量的情况下逐步细化跨模态的互补信息。

4.2.4 检测头的融合模式

提出的CFE模块可以处理不同的输入模态,研究了四种不同的融合模式:

  1. 仅输出单模态特征,迫使CFE-R和CFE-T模块分别从热图像和RGB图像特征中收集互补特征。
  2. 使用具有共享和非共享参数的双CFE模块。
  3. 使用NIN融合方法的基线特征融合。

所有这些融合的特征图将被馈送到检测头,用于后续的分类和回归任务。


05 实验分析

主要分析 SOTA 对比表以及消融实验。

5.1 数据集和评估指标

数据集

  • KAIST 数据集:一个流行的多光谱行人检测基准,包含不同光照条件的场景。训练集有8,963对弱对齐图像对,测试集有2,252对,分辨率为640×512。
  • FLIR 数据集:一个具有挑战性的多光谱目标检测数据集,包括白天和夜间场景。共有5,142对对齐的多光谱图像对,其中4,129用于训练,1,013用于测试。
  • VEDAI 数据集:一个用于航空图像中小目标检测的公共数据集,包含1,268对RGB-红外图像对,超过3,700个标注目标,9个车辆类别。

评估指标

  • 对数平均漏检率(MR-2):用于KAIST数据集的评估,代表9个FPPI值下的平均漏检率,值越低性能越好。
  • 平均精度(AP):目标检测的常见评估指标,值越高性能越好。

5.2 实验结果分析

  1. 与基线方法的比较

    • 在KAIST数据集上,提出的方法将MR从8.33%降低到7.63%,性能提升显著。
    • 在FLIR数据集上,提出的方法将mAP50从76.5%提高到77.5%,性能提升明显。
  2. 与最先进方法的比较

    • 提出的方法在KAIST、FLIR和VEDAI数据集上均取得了最先进的结果,同时获得了非常快的推理速度。
  3. 消融实验

    • 可学习参数的影响:在CFE模块的残差连接上应用可学习参数,在KAIST数据集上将MR从7.86%降低到7.63%,在FLIR数据集上将mAP50从77.1%提高到77.5%。
    • CFE模块的效果
      • 增强RGB特征的CFE模块在KAIST和FLIR数据集上分别比仅RGB的单分支方法提升了0.65%和0.90%。
      • 增强热特征的CFE模块在KAIST和FLIR数据集上分别比仅热的检测器提升了0.59%和1.20%。
      • 双CFE模块在KAIST和FLIR数据集上分别比基线方法提升了0.70%和1.00%。
    • 堆叠模块数量的影响:随着堆叠模块数量增加到10,参数数量和GPU内存增加了4倍以上,而运行速度从40.5 Hz急剧下降到17.3 Hz,mAP仅获得0.70%的边际收益。
    • 迭代次数的影响:仅一次迭代,迭代学习方法在KAIST数据集上将MR从7.63%降低到7.17%,在FLIR数据集上将mAP50从77.50%提高到79.20%。额外的迭代并没有提高性能,一次迭代在实验中取得了最佳结果。

5.3 计算效率

  • 计算复杂度:与CFT方法相比,提出的方法具有更低的计算复杂度,总计算复杂度从( O(4T^2×C + 16T×C^2) )降低到( O(2T^2×C + 16T×C^2) )。

  • 推理速度:提出的方法具有更快的推理速度,在FLIR数据集上达到了36.7 FPS,而堆叠方法的推理速度仅为17.3 FPS。

  • 内存使用:由于采用了迭代学习策略和空间特征压缩模块,提出的方法在保持高性能的同时,内存使用也得到了有效控制。


06 个人声明

本文为作者对原论文的学习笔记与心得分享,受个人学识与理解所限,文中对论文内容的解读或有不够周全之处,一切以原论文正式表述为准。本文仅用于学术交流与传播,内容均由作者独立整理完成,不代表本公众号立场。如文中所涉文字、图片等内容存在版权争议,请及时与作者联系,作者将在第一时间核实并妥善处理。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐