01 论文信息

  • 论文题目: Instruction-driven fusion of Infrared–visible images: Tailoring for diverse downstream tasks(指令驱动的红外 - 可见光图像融合:针对多样化下游任务的定制)
  • 论文作者: Zengyi Yang, Yafei Zhang, Huafeng Li, Yu Liu
  • 发表单位: 昆明理工大学信息工程与自动化学院;合肥工业大学生物医学工程系
  • 发表会议\期刊: Information Fusion 2025 (JCR Q1, 中科院一区)
  • 代码链接: https://github.com/YR0211/IDF-TDDT

02 论文主要贡献

本文针对红外 - 可见光图像融合技术在多任务应用场景中的核心挑战,提出了创新性的解决方案。主要贡献包括:

1. 提出了 IR-VIS 图像融合的新范式

  • 首次将文本指令引入图像融合领域,实现了无需重新训练即可适应不同下游任务的融合方法
  • 突破了传统方法只能针对单一任务优化的局限性,为多任务图像融合应用开辟了新方向

2. 设计了面向任务的自适应调节机制(T-OAR)

  • 开发了包含多个任务相关动态提示注入(T-DPI)模块的自适应机制
  • 利用大语言模型 LLaMA 从用户指令中提取特征,生成任务特定的动态提示
  • 将文本提示注入到特征提取过程,引导融合网络输出更符合任务需求的特征表示

3. 实现了高效灵活的结构设计

  • 采用两阶段训练策略:第一阶段训练基础融合网络,第二阶段微调 T-OAR 模块
  • 在适应多任务时,冻结融合网络和下游任务网络参数,仅训练 T-DPI 模块
  • 显著降低了计算成本和参数数量(仅 5.79M 可训练参数),适合资源受限平台部署

4. 在多个下游任务上验证了卓越性能

  • 在目标检测(mAP50→95: 0.6184)、语义分割(mIoU: 60.28%)、显著目标检测(mFβ: 0.8058)任务上均达到 SOTA 水平
  • 通过指令切换即可适应不同任务,无需重新训练,展现了强大的适应性和灵活性

03 论文创新点

  1. 指令驱动的融合新范式:首次提出将自然语言指令作为控制信号引入 IR-VIS 图像融合领域,用户只需输入简单的任务描述(如"object detection task"),融合网络即可自适应调整输出特征,无需重新训练。这种"指令即控制"的理念为图像融合领域带来了全新的交互方式。

  2. 任务相关动态提示注入(T-DPI)模块:设计了包含 GAP、GMP、Adapter 和 CPPB 的创新结构,将文本域特征映射到图像域,并生成动态卷积核和偏置,实现对特征表示的细粒度调控。这种跨模态特征交互机制确保了文本指令与图像特征的有效融合。

  3. 无需重新训练的多任务适应能力:通过冻结基础融合网络参数,仅训练轻量级的 T-OAR 模块,实现了对多个下游任务的快速适应。与联合训练方法(如 MRFS 需要 134.97M 参数)相比,本方法仅需 5.79M 参数,降低了 95.7% 的训练成本,同时保持了相当甚至更优的性能。

  4. 通用性与专用性的平衡:通过实验验证了目标检测、语义分割和显著目标检测三个任务之间不存在显著冲突,单个融合网络能够同时满足多任务需求而不损害特定任务性能,解决了多任务学习中常见的性能权衡问题。
    在这里插入图片描述


04 方法

4.1 整体框架

4.1.1 方法概述

所提出的方法由两个核心组件构成:基础融合网络(BFN)面向任务的自适应调节模块(T-OAR)。整体架构如图 2 所示,采用两阶段训练策略:

  • 第一阶段(图 2 虚线):训练 BFN 进行 IR-VIS 图像的初始融合,学习高质量的融合表示
  • 第二阶段(图 2 实线):冻结 BFN 参数,训练 T-OAR 模块,使融合框架能够根据任务指令自适应调整输出特征

这种设计的核心优势在于:一旦完成训练,用户可以通过简单的文本指令切换任务,无需重新训练整个网络,大大提升了部署效率和应用灵活性。

4.1.2 基础融合网络架构

BFN 采用对称编码器 - 解码器结构,包含三个主要组件:

红外特征编码器(IR-E)

  • 由 M 个卷积残差块(CRB)组成(M=4)
  • 每个 CRB 包含三个卷积块和跳跃连接
  • 提取多尺度红外特征:Fir1,Fir2,…,FirMF^1_{ir}, F^2_{ir}, \ldots, F^M_{ir}Fir1,Fir2,,FirM

可见光特征编码器(VI-E)

  • 结构与 IR-E 对称,同样包含 M 个 CRB
  • 提取多尺度可见光特征:Fvi1,Fvi2,…,FviMF^1_{vi}, F^2_{vi}, \ldots, F^M_{vi}Fvi1,Fvi2,,FviM

融合与重建块(FRB)

  • 特征融合(FF)模块:拼接红外和可见光特征,提取梯度信息
  • 融合特征解码器(FFD):由 M 个 CRB 组成,逐步解码融合特征
  • 重建块(RB):包含 3 个由 Conv、BN、LReLU 组成的块,生成最终融合图像

FRB 的核心创新在于多分支特征增强策略:

  1. 对拼接特征应用 GMP、GAP、MaxP、MeanP 四种池化操作
  2. GMP 和 GAP 分支通过线性层 + ReLU 处理
  3. MaxP 和 MeanP 分支通过卷积层 + ReLU 处理
  4. 分支特征相加后逐元素相乘,突出共享显著特征:
    在这里插入图片描述

F~=(FGMP+FGAP)⊙(FMaxP+FMeanP) \tilde{F} = (F_{GMP} + F_{GAP}) \odot (F_{MaxP} + F_{MeanP}) F~=(FGMP+FGAP)(FMaxP+FMeanP)

  1. 通过 Sigmoid 生成像素级重要性权重,加权融合特征

融合损失函数设计:

lf=lg+λlbri l_f = l_g + \lambda l_{bri} lf=lg+λlbri

其中亮度损失 lbril_{bri}lbri 确保融合图像与源图像亮度一致,梯度损失 lgl_glg 保持边缘信息完整性。

4.2 面向任务的自适应调节(T-OAR)

在这里插入图片描述

4.2.1 T-OAR 总体设计

T-OAR 是本文的核心创新模块,其设计目标是:根据用户输入的文本指令,自适应调整 BFN 输出的编码特征,使融合结果更符合特定下游任务的需求。

关键设计决策:

  1. 指令特征提取:使用预训练的 LLaMA 大语言模型从文本指令中提取特征向量 ftf_tft

    • 选择 LLaMA 的原因:在较小参数规模下实现与大模型相当的性能,计算资源需求低
    • 仅用于特征提取,不生成完整文本响应,进一步降低计算开销
  2. 多层次特征调节:T-OAR 包含 2(M-1) 个 T-DPI 模块,分别作用于 IR-E 和 VI-E 的前 M-1 层输出特征

    • 这种设计确保在特征提取的多个阶段都融入任务特定信息
    • 早期调节有助于引导后续特征提取方向
  3. 跨模态特征映射:通过 Adapter 将文本特征从文本域映射到图像域,确保与图像特征的有效交互

4.2.2 任务相关动态提示注入(T-DPI)

T-DPI 是 T-OAR 的基本组成单元,其结构设计如图 4 所示,包含四个关键组件:

全局池化模块(GAP & GMP)

  • GAP(全局平均池化):捕获图像的全局上下文信息
  • GMP(全局最大池化):突出图像中的显著区域
  • 两者结合提供全面的图像全局表示

Adapter 模块

  • 结构:两个线性层组成的 MLP
  • 功能:将文本特征 ftf_tft 映射到图像特征空间,得到 ft′f'_tft
  • 必要性:文本和图像特征处于不同的特征空间,直接拼接效果差(如表 7 中 Model III 所示)

卷积参数预测块(CPPB)

  • 结构:两个线性层
  • 输入:拼接的 ft′f'_tftfgapf_{gap}fgapfgmpf_{gmp}fgmp
  • 输出:动态卷积核 KdK_dKd 和偏置 bdb_dbd
  • 创新点:根据任务指令和图像内容动态生成卷积参数,实现条件卷积

动态特征调节
调整后的特征通过动态卷积生成:

Fir/vi′i=Conv(Fir/vii;Kd,bd) F'^i_{ir/vi} = \text{Conv}(F^i_{ir/vi}; K_d, b_d) Fir/vii=Conv(Fir/vii;Kd,bd)

这种设计的关键优势:

  • 任务特定性:不同任务指令生成不同的 KdK_dKdbdb_dbd,实现任务特定的特征调节
  • 内容感知:结合图像全局特征(fgapf_{gap}fgapfgmpf_{gmp}fgmp),使调节策略适应图像内容
  • 参数高效:动态生成的卷积核共享基础结构,仅微调参数,大幅减少训练参数量
4.2.3 消融实验验证

为验证 T-DPI 各组件的必要性,作者设计了以下消融模型:

  • Model I(完整模型):OD (mAP): 0.6184, SS (mIoU): 60.28, SOD (mFβ): 0.8058
  • Model II(移除 T-DPI,使用固定权重):OD (mAP): 0.6134, SS (mIoU): 58.67, SOD (mFβ): 0.8010
  • Model III(移除 Adapter,直接拼接):OD (mAP): 0.5868, SS (mIoU): 55.82, SOD (mFβ): 0.8036
  • Model IV(移除 GAP 和 GMP):OD (mAP): 0.6127, SS (mIoU): 59.18, SOD (mFβ): 0.7937
  • Model V(移除 CPPB,使用静态卷积):OD (mAP): 0.6103, SS (mIoU): 59.08, SOD (mFβ): 0.7960

实验结果表明:

  • 完整模型在所有任务上均表现最佳
  • Model III 性能显著下降,验证了 Adapter 跨模态映射的必要性
  • Model IV 和 Model V 在多任务上表现不均衡,说明 GAP/GMP 和 CPPB 对任务特定性的重要贡献

4.3 训练策略与损失函数

4.3.1 两阶段训练

第一阶段:基础融合网络训练

  • 训练对象:BFN(IR-E、VI-E、FRB)
  • 损失函数:融合损失 lf=lg+λlbril_f = l_g + \lambda l_{bri}lf=lg+λlbri
  • 不涉及下游任务,专注于学习高质量的 IR-VIS 融合表示
  • 优势:基础融合网络可以预训练一次,在多个下游任务间共享

第二阶段:T-OAR 微调

  • 训练对象:T-OAR 模块(T-DPI)
  • 冻结参数:BFN 和下游任务网络
  • 损失函数:L=lf+αltaskL = l_f + \alpha l_{task}L=lf+αltask
  • 针对不同任务使用不同的任务损失:
    • 目标检测:ldetl_{det}ldet(YOLOv5s 的检测损失)
    • 语义分割:lsegl_{seg}lseg(SegFormer 的分割损失)
    • 显著目标检测:lsall_{sal}lsal(CTDNet-18 的显著性损失)
4.3.2 任务指令设计

用户提供的任务指令采用简洁的自然语言描述:

  • 目标检测任务:“object detection task”
  • 语义分割任务:“semantic segmentation task”
  • 显著目标检测任务:“salient object detection task”

实验验证(图 14):使用不同指令对同一对图像进行微调,产生的融合结果确实针对不同任务进行了优化:

  • 目标检测指令:增强目标的热特征和边缘信息
  • 语义分割指令:保持区域一致性和边界清晰度
  • 显著目标检测指令:突出显著目标,抑制背景

05 实验分析

5.1 实验设置

在 M3FD、FMB、VT5000 三个数据集上进行实验,使用 PyTorch 框架,Adam 优化器,学习率 0.001,batch size 为 8,训练 100 轮,输入尺寸 256×256。

5.2 与 SOTA 方法对比

目标检测:mAP50→95 达到 0.6184,超过 TarDAL(0.6089)和 DetFusion(0.6015)

语义分割:mIoU 达到 60.28%,超过 SegMiF(59.15%)和 MRFS(58.73%)

显著目标检测:mFβ达到 0.8058,MAE 达到 0.0414,优于 IRFS(mFβ: 0.7892)

定性结果显示,本方法在低光照条件下能有效增强目标特征,在语义分割任务中保持区域一致性,在显著性检测中有效突出目标并抑制背景。

5.3 消融实验

T-DPI 组件有效性:完整模型在所有指标上最优。移除 Adapter 导致性能显著下降(mAP: -0.0316),验证了跨模态映射的必要性;移除 GAP/GMP 或 CPPB 也会导致性能下降。

任务指令控制:使用不同指令对同一图像微调,融合结果确实针对不同任务优化:目标检测指令增强热特征和边缘,语义分割指令保持区域一致性,显著性检测指令突出目标。

参数效率:相比联合训练方法(7.50M-134.97M),本方法仅需 5.79M 参数,减少 84.7%-95.7%,且性能更优。

5.4 超参数分析

λ=0.2 时性能最优,M=4 时在特征调节能力和计算效率间取得最佳平衡。

5.5 任务冲突分析

实验表明,三个下游任务之间不存在显著冲突,联合训练性能与双任务训练相当,T-OAR 通过任务指令有效分离了不同任务的特征表示。

5.6 局限性

  1. 要求红外和可见光图像严格配准
  2. 在恶劣天气(雾霾、雨雪)下性能可能下降

06 个人声明

本文为作者对原论文的学习笔记与心得分享,受个人学识与理解所限,文中对论文内容的解读或有不够周全之处,一切以原论文正式表述为准。本文仅用于学术交流与传播,不代表本公众号立场。如文中所涉文字、图片等内容存在版权争议,请及时与作者联系,作者将在第一时间核实并妥善处理。

参考文献:
Yang Z, Zhang Y, Li H, Liu Y. Instruction-driven fusion of Infrared–visible images: Tailoring for diverse downstream tasks[J]. Information Fusion, 2025, 121: 103148. DOI: 10.1016/j.inffus.2025.103148

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐