IF 2025|Instruction-driven fusion of Infrared–visible images_ Tailoring for diverse downstream tasks

terrygim_123

363人浏览 · 2026-04-16 19:11:22

terrygim_123 · 2026-04-16 19:11:22 发布

01 论文信息

论文题目： Instruction-driven fusion of Infrared–visible images: Tailoring for diverse downstream tasks（指令驱动的红外 - 可见光图像融合：针对多样化下游任务的定制）
论文作者： Zengyi Yang, Yafei Zhang, Huafeng Li, Yu Liu
发表单位： 昆明理工大学信息工程与自动化学院；合肥工业大学生物医学工程系
发表会议\期刊： Information Fusion 2025 (JCR Q1, 中科院一区)
代码链接： https://github.com/YR0211/IDF-TDDT

02 论文主要贡献

本文针对红外 - 可见光图像融合技术在多任务应用场景中的核心挑战，提出了创新性的解决方案。主要贡献包括：

1. 提出了 IR-VIS 图像融合的新范式

首次将文本指令引入图像融合领域，实现了无需重新训练即可适应不同下游任务的融合方法
突破了传统方法只能针对单一任务优化的局限性，为多任务图像融合应用开辟了新方向

2. 设计了面向任务的自适应调节机制（T-OAR）

开发了包含多个任务相关动态提示注入（T-DPI）模块的自适应机制
利用大语言模型 LLaMA 从用户指令中提取特征，生成任务特定的动态提示
将文本提示注入到特征提取过程，引导融合网络输出更符合任务需求的特征表示

3. 实现了高效灵活的结构设计

采用两阶段训练策略：第一阶段训练基础融合网络，第二阶段微调 T-OAR 模块
在适应多任务时，冻结融合网络和下游任务网络参数，仅训练 T-DPI 模块
显著降低了计算成本和参数数量（仅 5.79M 可训练参数），适合资源受限平台部署

4. 在多个下游任务上验证了卓越性能

在目标检测（mAP50→95: 0.6184）、语义分割（mIoU: 60.28%）、显著目标检测（mFβ: 0.8058）任务上均达到 SOTA 水平
通过指令切换即可适应不同任务，无需重新训练，展现了强大的适应性和灵活性

03 论文创新点

指令驱动的融合新范式：首次提出将自然语言指令作为控制信号引入 IR-VIS 图像融合领域，用户只需输入简单的任务描述（如"object detection task"），融合网络即可自适应调整输出特征，无需重新训练。这种"指令即控制"的理念为图像融合领域带来了全新的交互方式。
任务相关动态提示注入（T-DPI）模块：设计了包含 GAP、GMP、Adapter 和 CPPB 的创新结构，将文本域特征映射到图像域，并生成动态卷积核和偏置，实现对特征表示的细粒度调控。这种跨模态特征交互机制确保了文本指令与图像特征的有效融合。
无需重新训练的多任务适应能力：通过冻结基础融合网络参数，仅训练轻量级的 T-OAR 模块，实现了对多个下游任务的快速适应。与联合训练方法（如 MRFS 需要 134.97M 参数）相比，本方法仅需 5.79M 参数，降低了 95.7% 的训练成本，同时保持了相当甚至更优的性能。
通用性与专用性的平衡：通过实验验证了目标检测、语义分割和显著目标检测三个任务之间不存在显著冲突，单个融合网络能够同时满足多任务需求而不损害特定任务性能，解决了多任务学习中常见的性能权衡问题。

04 方法

4.1 整体框架

4.1.1 方法概述

所提出的方法由两个核心组件构成：基础融合网络（BFN）和面向任务的自适应调节模块（T-OAR）。整体架构如图 2 所示，采用两阶段训练策略：

第一阶段（图 2 虚线）：训练 BFN 进行 IR-VIS 图像的初始融合，学习高质量的融合表示
第二阶段（图 2 实线）：冻结 BFN 参数，训练 T-OAR 模块，使融合框架能够根据任务指令自适应调整输出特征

这种设计的核心优势在于：一旦完成训练，用户可以通过简单的文本指令切换任务，无需重新训练整个网络，大大提升了部署效率和应用灵活性。

4.1.2 基础融合网络架构

BFN 采用对称编码器 - 解码器结构，包含三个主要组件：

红外特征编码器（IR-E）

由 M 个卷积残差块（CRB）组成（M=4）
每个 CRB 包含三个卷积块和跳跃连接
提取多尺度红外特征： $Fir1,Fir2,…,FirMF^1_{ir}, F^2_{ir}, \ldots, F^M_{ir}$

可见光特征编码器（VI-E）

结构与 IR-E 对称，同样包含 M 个 CRB
提取多尺度可见光特征： $Fvi1,Fvi2,…,FviMF^1_{vi}, F^2_{vi}, \ldots, F^M_{vi}$

融合与重建块（FRB）

特征融合（FF）模块：拼接红外和可见光特征，提取梯度信息
融合特征解码器（FFD）：由 M 个 CRB 组成，逐步解码融合特征
重建块（RB）：包含 3 个由 Conv、BN、LReLU 组成的块，生成最终融合图像

FRB 的核心创新在于多分支特征增强策略：

对拼接特征应用 GMP、GAP、MaxP、MeanP 四种池化操作
GMP 和 GAP 分支通过线性层 + ReLU 处理
MaxP 和 MeanP 分支通过卷积层 + ReLU 处理
分支特征相加后逐元素相乘，突出共享显著特征：

$\tilde{F} = (F_{GMP} + F_{GAP}) \odot (F_{MaxP} + F_{MeanP})$

通过 Sigmoid 生成像素级重要性权重，加权融合特征

融合损失函数设计：

$l_f = l_g + \lambda l_{bri}$

其中亮度损失 $l_{bri}$ 确保融合图像与源图像亮度一致，梯度损失 $l_g$ 保持边缘信息完整性。

4.2 面向任务的自适应调节（T-OAR）

在这里插入图片描述

4.2.1 T-OAR 总体设计

T-OAR 是本文的核心创新模块，其设计目标是：根据用户输入的文本指令，自适应调整 BFN 输出的编码特征，使融合结果更符合特定下游任务的需求。

关键设计决策：

指令特征提取：使用预训练的 LLaMA 大语言模型从文本指令中提取特征向量 $f_t$
- 选择 LLaMA 的原因：在较小参数规模下实现与大模型相当的性能，计算资源需求低
- 仅用于特征提取，不生成完整文本响应，进一步降低计算开销
多层次特征调节：T-OAR 包含 2(M-1) 个 T-DPI 模块，分别作用于 IR-E 和 VI-E 的前 M-1 层输出特征
- 这种设计确保在特征提取的多个阶段都融入任务特定信息
- 早期调节有助于引导后续特征提取方向
跨模态特征映射：通过 Adapter 将文本特征从文本域映射到图像域，确保与图像特征的有效交互

4.2.2 任务相关动态提示注入（T-DPI）

T-DPI 是 T-OAR 的基本组成单元，其结构设计如图 4 所示，包含四个关键组件：

全局池化模块（GAP & GMP）

GAP（全局平均池化）：捕获图像的全局上下文信息
GMP（全局最大池化）：突出图像中的显著区域
两者结合提供全面的图像全局表示

Adapter 模块

结构：两个线性层组成的 MLP
功能：将文本特征 $f_t$ 映射到图像特征空间，得到 $f'_t$
必要性：文本和图像特征处于不同的特征空间，直接拼接效果差（如表 7 中 Model III 所示）

卷积参数预测块（CPPB）

结构：两个线性层
输入：拼接的 $f'_t$ 、 $f_{gap}$ 、 $f_{gmp}$
输出：动态卷积核 $K_d$ 和偏置 $b_d$
创新点：根据任务指令和图像内容动态生成卷积参数，实现条件卷积

动态特征调节
调整后的特征通过动态卷积生成：

$F'^i_{ir/vi} = \text{Conv}(F^i_{ir/vi}; K_d, b_d)$

这种设计的关键优势：

任务特定性：不同任务指令生成不同的 $K_d$ 和 $b_d$ ，实现任务特定的特征调节
内容感知：结合图像全局特征（ $f_{gap}$ 、 $f_{gmp}$ ），使调节策略适应图像内容
参数高效：动态生成的卷积核共享基础结构，仅微调参数，大幅减少训练参数量

4.2.3 消融实验验证

为验证 T-DPI 各组件的必要性，作者设计了以下消融模型：

Model I（完整模型）：OD (mAP): 0.6184, SS (mIoU): 60.28, SOD (mFβ): 0.8058
Model II（移除 T-DPI，使用固定权重）：OD (mAP): 0.6134, SS (mIoU): 58.67, SOD (mFβ): 0.8010
Model III（移除 Adapter，直接拼接）：OD (mAP): 0.5868, SS (mIoU): 55.82, SOD (mFβ): 0.8036
Model IV（移除 GAP 和 GMP）：OD (mAP): 0.6127, SS (mIoU): 59.18, SOD (mFβ): 0.7937
Model V（移除 CPPB，使用静态卷积）：OD (mAP): 0.6103, SS (mIoU): 59.08, SOD (mFβ): 0.7960

实验结果表明：

完整模型在所有任务上均表现最佳
Model III 性能显著下降，验证了 Adapter 跨模态映射的必要性
Model IV 和 Model V 在多任务上表现不均衡，说明 GAP/GMP 和 CPPB 对任务特定性的重要贡献

4.3 训练策略与损失函数

4.3.1 两阶段训练

第一阶段：基础融合网络训练

训练对象：BFN（IR-E、VI-E、FRB）
损失函数：融合损失 $lf=lg+λlbril_f = l_g + \lambda l_{bri}$
不涉及下游任务，专注于学习高质量的 IR-VIS 融合表示
优势：基础融合网络可以预训练一次，在多个下游任务间共享

第二阶段：T-OAR 微调

训练对象：T-OAR 模块（T-DPI）
冻结参数：BFN 和下游任务网络
损失函数： $l_f + \alpha l_{task}$
针对不同任务使用不同的任务损失：
- 目标检测： $l_{det}$ （YOLOv5s 的检测损失）
- 语义分割： $l_{seg}$ （SegFormer 的分割损失）
- 显著目标检测： $l_{sal}$ （CTDNet-18 的显著性损失）

4.3.2 任务指令设计

用户提供的任务指令采用简洁的自然语言描述：

目标检测任务：“object detection task”
语义分割任务：“semantic segmentation task”
显著目标检测任务：“salient object detection task”

实验验证（图 14）：使用不同指令对同一对图像进行微调，产生的融合结果确实针对不同任务进行了优化：

目标检测指令：增强目标的热特征和边缘信息
语义分割指令：保持区域一致性和边界清晰度
显著目标检测指令：突出显著目标，抑制背景

05 实验分析

5.1 实验设置

在 M3FD、FMB、VT5000 三个数据集上进行实验，使用 PyTorch 框架，Adam 优化器，学习率 0.001，batch size 为 8，训练 100 轮，输入尺寸 256×256。

5.2 与 SOTA 方法对比

目标检测：mAP50→95 达到 0.6184，超过 TarDAL（0.6089）和 DetFusion（0.6015）

语义分割：mIoU 达到 60.28%，超过 SegMiF（59.15%）和 MRFS（58.73%）

显著目标检测：mFβ达到 0.8058，MAE 达到 0.0414，优于 IRFS（mFβ: 0.7892）

定性结果显示，本方法在低光照条件下能有效增强目标特征，在语义分割任务中保持区域一致性，在显著性检测中有效突出目标并抑制背景。

5.3 消融实验

T-DPI 组件有效性：完整模型在所有指标上最优。移除 Adapter 导致性能显著下降（mAP: -0.0316），验证了跨模态映射的必要性；移除 GAP/GMP 或 CPPB 也会导致性能下降。

任务指令控制：使用不同指令对同一图像微调，融合结果确实针对不同任务优化：目标检测指令增强热特征和边缘，语义分割指令保持区域一致性，显著性检测指令突出目标。

参数效率：相比联合训练方法（7.50M-134.97M），本方法仅需 5.79M 参数，减少 84.7%-95.7%，且性能更优。

5.4 超参数分析

λ=0.2 时性能最优，M=4 时在特征调节能力和计算效率间取得最佳平衡。

5.5 任务冲突分析

实验表明，三个下游任务之间不存在显著冲突，联合训练性能与双任务训练相当，T-OAR 通过任务指令有效分离了不同任务的特征表示。

5.6 局限性

要求红外和可见光图像严格配准
在恶劣天气（雾霾、雨雪）下性能可能下降

06 个人声明

本文为作者对原论文的学习笔记与心得分享，受个人学识与理解所限，文中对论文内容的解读或有不够周全之处，一切以原论文正式表述为准。本文仅用于学术交流与传播，不代表本公众号立场。如文中所涉文字、图片等内容存在版权争议，请及时与作者联系，作者将在第一时间核实并妥善处理。

参考文献：
Yang Z, Zhang Y, Li H, Liu Y. Instruction-driven fusion of Infrared–visible images: Tailoring for diverse downstream tasks[J]. Information Fusion, 2025, 121: 103148. DOI: 10.1016/j.inffus.2025.103148

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

依赖下载慢

https://www.qianwen.com/share/chat/ee865c5083c2404cb54fbf3fd88a0d30?biz_id=ai_qwen&env=prod&qwcontainer=qk要修改IntelliJ IDEA中的Maven镜像源以提高JAR文件下载速度，最有效的方法是配置用户级文件并添加阿里云镜像。无需重启IDEA即可生效，且适用于所

AtomGit开源社区

我开发了一个 AI 表单填写 Chrome 插件：AutoFormX，提升 Web 测试和表单联调效率

AutoFormX 是一款面向开发者和测试人员的 Chrome 插件，通过 AI 自动识别网页表单字段并生成合适的测试数据，支持单字段填写和一键填充整个页面。它适用于注册页测试、后台管理系统联调、产品演示数据填充和表单功能验收等场景，支持 DeepSeek、OpenAI 等多种 AI 服务，旨在减少重复填表工作，提升 Web 测试和表单联调效率。

AtomGit开源社区

三天用AI开发完成开源WordPress导航主题：要哇棱镜主题详解 + 完整部署教程

若需添加其他搜索引擎（如搜狗、360搜索），可直接编辑主题文件中的搜索表单action属性，替换为目标搜索引擎的查询接口URL即可 ‌‌。要哇棱镜导航主题展示了AI辅助开发在Web前端领域的巨大潜力。通过短短三天的开发周期，不仅实现了美观实用的导航功能，更提供了极高的自由度与安全性。对于希望快速搭建个人网络入口或工具聚合平台的用户而言，这是一个极具性价比的选择。项目已在GitHub和Gitee开源