IF 2025|Instruction-driven fusion of Infrared–visible images_ Tailoring for diverse downstream tasks
01 论文信息
- 论文题目: Instruction-driven fusion of Infrared–visible images: Tailoring for diverse downstream tasks(指令驱动的红外 - 可见光图像融合:针对多样化下游任务的定制)
- 论文作者: Zengyi Yang, Yafei Zhang, Huafeng Li, Yu Liu
- 发表单位: 昆明理工大学信息工程与自动化学院;合肥工业大学生物医学工程系
- 发表会议\期刊: Information Fusion 2025 (JCR Q1, 中科院一区)
- 代码链接: https://github.com/YR0211/IDF-TDDT
02 论文主要贡献
本文针对红外 - 可见光图像融合技术在多任务应用场景中的核心挑战,提出了创新性的解决方案。主要贡献包括:
1. 提出了 IR-VIS 图像融合的新范式
- 首次将文本指令引入图像融合领域,实现了无需重新训练即可适应不同下游任务的融合方法
- 突破了传统方法只能针对单一任务优化的局限性,为多任务图像融合应用开辟了新方向
2. 设计了面向任务的自适应调节机制(T-OAR)
- 开发了包含多个任务相关动态提示注入(T-DPI)模块的自适应机制
- 利用大语言模型 LLaMA 从用户指令中提取特征,生成任务特定的动态提示
- 将文本提示注入到特征提取过程,引导融合网络输出更符合任务需求的特征表示
3. 实现了高效灵活的结构设计
- 采用两阶段训练策略:第一阶段训练基础融合网络,第二阶段微调 T-OAR 模块
- 在适应多任务时,冻结融合网络和下游任务网络参数,仅训练 T-DPI 模块
- 显著降低了计算成本和参数数量(仅 5.79M 可训练参数),适合资源受限平台部署
4. 在多个下游任务上验证了卓越性能
- 在目标检测(mAP50→95: 0.6184)、语义分割(mIoU: 60.28%)、显著目标检测(mFβ: 0.8058)任务上均达到 SOTA 水平
- 通过指令切换即可适应不同任务,无需重新训练,展现了强大的适应性和灵活性
03 论文创新点
-
指令驱动的融合新范式:首次提出将自然语言指令作为控制信号引入 IR-VIS 图像融合领域,用户只需输入简单的任务描述(如"object detection task"),融合网络即可自适应调整输出特征,无需重新训练。这种"指令即控制"的理念为图像融合领域带来了全新的交互方式。
-
任务相关动态提示注入(T-DPI)模块:设计了包含 GAP、GMP、Adapter 和 CPPB 的创新结构,将文本域特征映射到图像域,并生成动态卷积核和偏置,实现对特征表示的细粒度调控。这种跨模态特征交互机制确保了文本指令与图像特征的有效融合。
-
无需重新训练的多任务适应能力:通过冻结基础融合网络参数,仅训练轻量级的 T-OAR 模块,实现了对多个下游任务的快速适应。与联合训练方法(如 MRFS 需要 134.97M 参数)相比,本方法仅需 5.79M 参数,降低了 95.7% 的训练成本,同时保持了相当甚至更优的性能。
-
通用性与专用性的平衡:通过实验验证了目标检测、语义分割和显著目标检测三个任务之间不存在显著冲突,单个融合网络能够同时满足多任务需求而不损害特定任务性能,解决了多任务学习中常见的性能权衡问题。

04 方法
4.1 整体框架
4.1.1 方法概述
所提出的方法由两个核心组件构成:基础融合网络(BFN)和面向任务的自适应调节模块(T-OAR)。整体架构如图 2 所示,采用两阶段训练策略:
- 第一阶段(图 2 虚线):训练 BFN 进行 IR-VIS 图像的初始融合,学习高质量的融合表示
- 第二阶段(图 2 实线):冻结 BFN 参数,训练 T-OAR 模块,使融合框架能够根据任务指令自适应调整输出特征
这种设计的核心优势在于:一旦完成训练,用户可以通过简单的文本指令切换任务,无需重新训练整个网络,大大提升了部署效率和应用灵活性。
4.1.2 基础融合网络架构
BFN 采用对称编码器 - 解码器结构,包含三个主要组件:
红外特征编码器(IR-E)
- 由 M 个卷积残差块(CRB)组成(M=4)
- 每个 CRB 包含三个卷积块和跳跃连接
- 提取多尺度红外特征:Fir1,Fir2,…,FirMF^1_{ir}, F^2_{ir}, \ldots, F^M_{ir}Fir1,Fir2,…,FirM
可见光特征编码器(VI-E)
- 结构与 IR-E 对称,同样包含 M 个 CRB
- 提取多尺度可见光特征:Fvi1,Fvi2,…,FviMF^1_{vi}, F^2_{vi}, \ldots, F^M_{vi}Fvi1,Fvi2,…,FviM
融合与重建块(FRB)
- 特征融合(FF)模块:拼接红外和可见光特征,提取梯度信息
- 融合特征解码器(FFD):由 M 个 CRB 组成,逐步解码融合特征
- 重建块(RB):包含 3 个由 Conv、BN、LReLU 组成的块,生成最终融合图像
FRB 的核心创新在于多分支特征增强策略:
- 对拼接特征应用 GMP、GAP、MaxP、MeanP 四种池化操作
- GMP 和 GAP 分支通过线性层 + ReLU 处理
- MaxP 和 MeanP 分支通过卷积层 + ReLU 处理
- 分支特征相加后逐元素相乘,突出共享显著特征:

F~=(FGMP+FGAP)⊙(FMaxP+FMeanP) \tilde{F} = (F_{GMP} + F_{GAP}) \odot (F_{MaxP} + F_{MeanP}) F~=(FGMP+FGAP)⊙(FMaxP+FMeanP)
- 通过 Sigmoid 生成像素级重要性权重,加权融合特征
融合损失函数设计:
lf=lg+λlbri l_f = l_g + \lambda l_{bri} lf=lg+λlbri
其中亮度损失 lbril_{bri}lbri 确保融合图像与源图像亮度一致,梯度损失 lgl_glg 保持边缘信息完整性。
4.2 面向任务的自适应调节(T-OAR)

4.2.1 T-OAR 总体设计
T-OAR 是本文的核心创新模块,其设计目标是:根据用户输入的文本指令,自适应调整 BFN 输出的编码特征,使融合结果更符合特定下游任务的需求。
关键设计决策:
-
指令特征提取:使用预训练的 LLaMA 大语言模型从文本指令中提取特征向量 ftf_tft
- 选择 LLaMA 的原因:在较小参数规模下实现与大模型相当的性能,计算资源需求低
- 仅用于特征提取,不生成完整文本响应,进一步降低计算开销
-
多层次特征调节:T-OAR 包含 2(M-1) 个 T-DPI 模块,分别作用于 IR-E 和 VI-E 的前 M-1 层输出特征
- 这种设计确保在特征提取的多个阶段都融入任务特定信息
- 早期调节有助于引导后续特征提取方向
-
跨模态特征映射:通过 Adapter 将文本特征从文本域映射到图像域,确保与图像特征的有效交互
4.2.2 任务相关动态提示注入(T-DPI)
T-DPI 是 T-OAR 的基本组成单元,其结构设计如图 4 所示,包含四个关键组件:
全局池化模块(GAP & GMP)
- GAP(全局平均池化):捕获图像的全局上下文信息
- GMP(全局最大池化):突出图像中的显著区域
- 两者结合提供全面的图像全局表示
Adapter 模块
- 结构:两个线性层组成的 MLP
- 功能:将文本特征 ftf_tft 映射到图像特征空间,得到 ft′f'_tft′
- 必要性:文本和图像特征处于不同的特征空间,直接拼接效果差(如表 7 中 Model III 所示)
卷积参数预测块(CPPB)
- 结构:两个线性层
- 输入:拼接的 ft′f'_tft′、fgapf_{gap}fgap、fgmpf_{gmp}fgmp
- 输出:动态卷积核 KdK_dKd 和偏置 bdb_dbd
- 创新点:根据任务指令和图像内容动态生成卷积参数,实现条件卷积
动态特征调节
调整后的特征通过动态卷积生成:
Fir/vi′i=Conv(Fir/vii;Kd,bd) F'^i_{ir/vi} = \text{Conv}(F^i_{ir/vi}; K_d, b_d) Fir/vi′i=Conv(Fir/vii;Kd,bd)
这种设计的关键优势:
- 任务特定性:不同任务指令生成不同的 KdK_dKd 和 bdb_dbd,实现任务特定的特征调节
- 内容感知:结合图像全局特征(fgapf_{gap}fgap、fgmpf_{gmp}fgmp),使调节策略适应图像内容
- 参数高效:动态生成的卷积核共享基础结构,仅微调参数,大幅减少训练参数量
4.2.3 消融实验验证
为验证 T-DPI 各组件的必要性,作者设计了以下消融模型:
- Model I(完整模型):OD (mAP): 0.6184, SS (mIoU): 60.28, SOD (mFβ): 0.8058
- Model II(移除 T-DPI,使用固定权重):OD (mAP): 0.6134, SS (mIoU): 58.67, SOD (mFβ): 0.8010
- Model III(移除 Adapter,直接拼接):OD (mAP): 0.5868, SS (mIoU): 55.82, SOD (mFβ): 0.8036
- Model IV(移除 GAP 和 GMP):OD (mAP): 0.6127, SS (mIoU): 59.18, SOD (mFβ): 0.7937
- Model V(移除 CPPB,使用静态卷积):OD (mAP): 0.6103, SS (mIoU): 59.08, SOD (mFβ): 0.7960
实验结果表明:
- 完整模型在所有任务上均表现最佳
- Model III 性能显著下降,验证了 Adapter 跨模态映射的必要性
- Model IV 和 Model V 在多任务上表现不均衡,说明 GAP/GMP 和 CPPB 对任务特定性的重要贡献
4.3 训练策略与损失函数
4.3.1 两阶段训练
第一阶段:基础融合网络训练
- 训练对象:BFN(IR-E、VI-E、FRB)
- 损失函数:融合损失 lf=lg+λlbril_f = l_g + \lambda l_{bri}lf=lg+λlbri
- 不涉及下游任务,专注于学习高质量的 IR-VIS 融合表示
- 优势:基础融合网络可以预训练一次,在多个下游任务间共享
第二阶段:T-OAR 微调
- 训练对象:T-OAR 模块(T-DPI)
- 冻结参数:BFN 和下游任务网络
- 损失函数:L=lf+αltaskL = l_f + \alpha l_{task}L=lf+αltask
- 针对不同任务使用不同的任务损失:
- 目标检测:ldetl_{det}ldet(YOLOv5s 的检测损失)
- 语义分割:lsegl_{seg}lseg(SegFormer 的分割损失)
- 显著目标检测:lsall_{sal}lsal(CTDNet-18 的显著性损失)
4.3.2 任务指令设计
用户提供的任务指令采用简洁的自然语言描述:
- 目标检测任务:“object detection task”
- 语义分割任务:“semantic segmentation task”
- 显著目标检测任务:“salient object detection task”
实验验证(图 14):使用不同指令对同一对图像进行微调,产生的融合结果确实针对不同任务进行了优化:
- 目标检测指令:增强目标的热特征和边缘信息
- 语义分割指令:保持区域一致性和边界清晰度
- 显著目标检测指令:突出显著目标,抑制背景
05 实验分析
5.1 实验设置
在 M3FD、FMB、VT5000 三个数据集上进行实验,使用 PyTorch 框架,Adam 优化器,学习率 0.001,batch size 为 8,训练 100 轮,输入尺寸 256×256。
5.2 与 SOTA 方法对比
目标检测:mAP50→95 达到 0.6184,超过 TarDAL(0.6089)和 DetFusion(0.6015)
语义分割:mIoU 达到 60.28%,超过 SegMiF(59.15%)和 MRFS(58.73%)
显著目标检测:mFβ达到 0.8058,MAE 达到 0.0414,优于 IRFS(mFβ: 0.7892)
定性结果显示,本方法在低光照条件下能有效增强目标特征,在语义分割任务中保持区域一致性,在显著性检测中有效突出目标并抑制背景。
5.3 消融实验
T-DPI 组件有效性:完整模型在所有指标上最优。移除 Adapter 导致性能显著下降(mAP: -0.0316),验证了跨模态映射的必要性;移除 GAP/GMP 或 CPPB 也会导致性能下降。
任务指令控制:使用不同指令对同一图像微调,融合结果确实针对不同任务优化:目标检测指令增强热特征和边缘,语义分割指令保持区域一致性,显著性检测指令突出目标。
参数效率:相比联合训练方法(7.50M-134.97M),本方法仅需 5.79M 参数,减少 84.7%-95.7%,且性能更优。
5.4 超参数分析
λ=0.2 时性能最优,M=4 时在特征调节能力和计算效率间取得最佳平衡。
5.5 任务冲突分析
实验表明,三个下游任务之间不存在显著冲突,联合训练性能与双任务训练相当,T-OAR 通过任务指令有效分离了不同任务的特征表示。
5.6 局限性
- 要求红外和可见光图像严格配准
- 在恶劣天气(雾霾、雨雪)下性能可能下降
06 个人声明
本文为作者对原论文的学习笔记与心得分享,受个人学识与理解所限,文中对论文内容的解读或有不够周全之处,一切以原论文正式表述为准。本文仅用于学术交流与传播,不代表本公众号立场。如文中所涉文字、图片等内容存在版权争议,请及时与作者联系,作者将在第一时间核实并妥善处理。
参考文献:
Yang Z, Zhang Y, Li H, Liu Y. Instruction-driven fusion of Infrared–visible images: Tailoring for diverse downstream tasks[J]. Information Fusion, 2025, 121: 103148. DOI: 10.1016/j.inffus.2025.103148
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)