TPAMI 2025 |Towards Unified Semantic and Controllable Image Fusion A Diffusion Transformer Approach
面向统一语义与可控图像融合:一种扩散Transformer方法

作者:李佳阳*, 蒋承杰*, 姜俊俊†, 梁鹏威, 马佳艺, 聂立强
单位:哈尔滨工业大学(深圳)、清华大学深圳国际研究生院、武汉大学
发表于:IEEE JOURNAL OF LATEX CLASS FILES, VOL. 14, NO. 8, AUGUST 2021
开源地址:https://github.com/Henry-Lee-real/DiTFuse
摘要
图像融合旨在融合多模态传感器的互补信息,然而现有方法在鲁棒性、适应性和可控性方面仍存在局限。大多数当前的融合网络针对特定任务定制,难以灵活引入用户意图,尤其是在低光照退化、色彩偏移或曝光不平衡等复杂场景中表现不佳。此外,缺乏真实的融合图像标签以及现有数据集规模较小,使得训练一个端到端模型同时理解高层语义与实现细粒度多模态对齐变得困难。
为此,我们提出了 DiTFuse——一种由指令驱动的扩散-Transformer(DiT)框架,在单一模型内实现端到端、语义感知的图像融合。通过在共享潜在空间中联合编码两幅图像和自然语言指令,DiTFuse 实现了对融合动态的分层与精细化控制,克服了传统预融合与后融合流水线难以注入高层语义的缺陷。
训练阶段采用了一种多退化掩码图像建模策略(M3),使网络无需依赖真实融合图像即可联合学习跨模态对齐、模态不变恢复和任务感知特征选择。我们还构建了一个精心策划的多粒度指令数据集,赋予模型交互式融合能力。
DiTFuse 在单一架构下统一了红外-可见光、多焦点、多曝光融合,以及文本控制下的精细化调整和下游任务。在公开的 IVIF、MFF 和 MEF 基准上的实验表明,其在定量与定性指标上均优于现有方法,纹理更锐利,语义保留更好。该模型还支持多级用户控制,并能在其他多图像融合场景中实现零样本泛化,包括指令条件下的分割任务。
代码地址:https://github.com/Henry-Lee-real/DiTFuse
I. 引言
由于硬件性能瓶颈和感知环境的复杂性,单一成像模态只能捕获自然场景的部分信息。图像融合技术通过整合多个源的互补信息,生成信息更全面的融合图像。根据具体任务,图像融合主要包括:
- 红外-可见光图像融合(IVIF)
- 多焦点融合(MFF)
- 多曝光融合(MEF)
这些技术广泛应用于移动摄影、自动驾驶和医学影像等领域,显著提升场景感知能力和视觉效果。
尽管现有方法在融合结果的视觉质量上表现出色,但在下游任务中的准确性提升有限。为同时提高融合图像的感知质量和下游任务性能,许多研究尝试将高层语义信息注入融合网络,使物体语义更加突出。这些方法主要依赖与下游任务的联合优化,通过梯度反向传播注入语义信息。虽然有效,但大多依赖外部模型或复杂的网络设计。
另一个重要问题是:现有融合算法在复杂场景中鲁棒性不足。若输入图像过暗(或过曝)或有色偏,这些缺陷常被直接带入最终结果。为此,一些团队设计了专门处理低光环境的融合网络,但这类方法在正常光照下易出现过曝,灵活性差。
近期,部分方法开始探索利用用户指令来更灵活地控制融合输出,以适应不同输入条件。得益于基础模型强大的表征与生成能力,这些方法取得了令人惊艳的结果。然而,相比单模态图像编辑,图像融合中的细粒度控制更具挑战——它要求模型既要理解文本指令中的高层语义,又要完成多模态图像内容的低层对齐与融合。
现有方法难以平衡这两方面,因为控制信号(如文本)无法有效注入融合过程,从而限制了其对实际融合动态的影响。此外,许多方法依赖预训练的指令跟随模型或生成模型来解释用户意图,导致视觉与语言信息未能在统一潜在空间中融合,难以实现真正意义上的端到端指令感知融合。
同时,若要在单个模型内实现端到端可控融合,则需要大规模数据集支持训练。而现有图像融合数据集规模太小,难以支撑此类任务。因此,我们提出的问题是:
是否有可能开发一种方法,既能具备强大的高层语义理解能力,又能在有限数据条件下,在单一模型内实现端到端可控融合?

II. 相关工作
A. 基于深度学习的图像融合
1) 图像融合网络架构
早期方法采用纯卷积神经网络(CNN)提取局部特征。随后引入GAN分支以增强细节生成。近年来,Transformer模块因其自注意力机制能捕捉长程依赖关系而被广泛采用,如 CDDFuse 模型结合了CNN局部分支与Transformer全局分支。
然而,大多数方法仍依赖简单的预融合或后融合策略,本质上是信息叠加,限制了模型在融合过程中动态调节各模态权重的能力。
此外,传统方法常导致高层语义信息丢失。为此,后续研究开始探索任务驱动优化,例如通过联合训练融合与分割网络(PSFusion)来增强语义感知。但这些方法均依赖额外的下游任务网络。
相比之下,我们的方法无需额外组件,可直接进行分割,让模型在过程中自然获取高层语义信息。
2) 一体化图像融合方法
已有研究致力于开发可处理多种融合类型的单一网络(如IVIF、MFF、MEF)。但这些方法通常对所有任务使用相同网络与训练流程,因优化目标不同而导致整体性能妥协。
为此,我们引入任务标记(task token)来部分解耦三类任务,防止它们被迫沿同一优化轨迹前进,从而实现更有效的任务特定调整。
3) 掩码图像建模(MIM)在融合任务中的适配
由于缺乏真实标签,MIM 对自监督融合训练极具价值。DeFusion 首次通过生成互补掩码预训练融合模型,指导网络恢复共享与模态特异性特征。DDBFusion 进一步增强了该框架。
然而,在异构模态(如红外与可见光)融合中,模态差距显著,“共性”与“独有”特征难以明确分离,限制了标准 MIM 策略的应用。
4) 基于扩散模型的图像融合方法
扩散模型为图像融合带来新机遇。DDFM 是首个将扩散模型用于图像融合的工作,但其像素级相似性目标易导致平均融合。Diff-IF 尝试引入融合先验,但仍依赖现有融合结果作为引导,形成循环依赖。
E2E-MFD 引入任务感知条件以增强下游适用性,但其结构上仅简单叠加多模态输入,未能实现真正的信息选择与融合。
B. 统一多模态模型
大型模型的发展推动了图像理解与生成的统一。代表性工作如:
- Chameleon:使用 VQ-GAN 离散化图像,自回归预测图像 token,但存在误差累积问题。
- Show-O:采用并行掩码 token 生成,缓解误差累积。
- Omnigen / Transfusion:转向连续潜在空间,使用 DiT 架构进行扩散去噪,在高质量图像生成与文本语义理解之间取得优异平衡。
由于本工作仅关注图像生成,不涉及文本输出,我们选用 Omnigen 作为基础模型。
III. 方法
A. 模型设计
我们在标准 Diffusion Transformer (DiT) 架构基础上构建融合模型,从预训练的 Omnigen 模型开始进行指令微调。核心挑战是如何将多模态信息有效编码并集成到统一潜在空间中。
1) 模型结构
如图 3 所示,模型包含四大模块:
-
文本编码器:使用预训练的 Phi-3 分词器将自然语言指令转换为语义嵌入。
给定指令 $ T $,文本编码器生成上下文化 token 序列 $ \mathbf{T} \in \mathbb{R}^{L \times d_t} $:
T = Transformer enc ( Tokenize ( T ) ) \mathbf{T} = \text{Transformer}_{\text{enc}}(\text{Tokenize}(T)) T=Transformerenc(Tokenize(T))
其中 $ L $ 为 token 长度,$ d_t = 3072 $ 为嵌入维度。 -
视觉编码器:采用 SDXL 的 VAE 作为图像编码器 $ \text{VAE}_{\text{enc}} $。输入图像 $ X \in \mathbb{R}^{H \times W \times 3} $ 被 patchify 后编码为潜在 token $ \mathbf{V} \in \mathbb{R}^{\frac{H}{8} \times \frac{W}{8} \times C} $:
V = VAE enc ( Patchify 8 × 8 ( X ) ) \mathbf{V} = \text{VAE}_{\text{enc}}(\text{Patchify}_{8\times8}(X)) V=VAEenc(Patchify8×8(X)) -
DiT 块:将图像与文本 token 拼接为单一序列,经 32 层 Transformer 层处理,建模跨模态交互并生成融合输出。
-
LoRA 适配:为在保留多模态能力的同时适配融合任务,我们在所有线性层上应用 Low-Rank Adaptation (LoRA)。对于权重矩阵 $ \mathbf{W} \in \mathbb{R}^{d_{in} \times d_{out}} $,其适配版本为:
W ′ = W + α ⋅ B A ⊤ , B ∈ R d i n × r , A ∈ R d o u t × r \mathbf{W}' = \mathbf{W} + \alpha \cdot \mathbf{B}\mathbf{A}^\top, \quad \mathbf{B} \in \mathbb{R}^{d_{in} \times r}, \mathbf{A} \in \mathbb{R}^{d_{out} \times r} W′=W+α⋅BA⊤,B∈Rdin×r,A∈Rdout×r
其中秩 $ r = 64 $,缩放因子 $ \alpha = 0.5 $。

2) 输入表示
模型接收图像与文本输入。文本通过 Phi-3 分词器处理;图像通过 VAE 编码为潜在表示,再经线性嵌入转为视觉 token 序列(patch size=2)。每个图像序列前后添加特殊标记 <img> 和 </img>。时间步嵌入附加在序列末尾以增强时序表示。
所有输入被转换为统一表示并并行输入DiT模型,促进更强的跨模态交互,使模型能联合考虑图像内容与文本控制指令。
3) 注意力机制
为兼顾图像全局感知与文本因果依赖,我们采用混合注意力机制:
- 在序列内对文本使用因果注意力;
- 在单个图像序列内使用双向注意力;
- 不同图像间仅允许前向注意力(即图像2可关注图像1,反之不行)。
这种设计既允许文本指令与所有视觉 token 交互以实现细粒度语义控制,又通过局部双向注意力保持图像结构完整性。
B. 训练策略
1) 训练机制
图像融合面临两大挑战:缺乏真实标签与任务目标差异大(如曝光均衡、语义保留、空间锐度等)。因此,我们采用多任务训练策略,利用辅助任务强化模型能力。
训练数据包含四类样本(见图5):
- 分割(Seg)
- 多退化掩码图像建模(M3)
- 图像级视觉控制(Control)
- 经典融合数据
其中,融合任务数据仅占 4.3%(13,692 / 316,392),其余来自 M3 与分割任务,可大规模构造。
我们采用流匹配(flow-matching)学习机制,替代传统去噪扩散:
对于目标图像 $ x $ 和高斯噪声 $ \epsilon \sim \mathcal{N}(0,1) $,采样时间步 $ t \in [0,1] $,构造噪声图像:
x t = t x + ( 1 − t ) ϵ x_t = t x + (1-t)\epsilon xt=tx+(1−t)ϵ
模型输入 $ (x_t, t, c) $,其中 $ c $ 为条件指令,预测目标速度 $ v_\theta(x_t, t, c) $。训练目标是最小化预测速度与真实速度的均方误差:
L = E [ ∥ ( x − ϵ ) − v θ ( x t , t , c ) ∥ 2 ] \mathcal{L} = \mathbb{E}\left[\| (x - \epsilon) - v_\theta(x_t, t, c) \|^2\right] L=E[∥(x−ϵ)−vθ(xt,t,c)∥2]

2) 训练数据构建流程
如图 4 所示,M3 数据通过对源图像施加多重退化生成:
- 将图像复制为两个视图,划分为 16×16、32×32 或 64×64 的网格;
- 对约 75% 的 patch 施加互补退化:在每个位置,仅其中一个视图的 patch 被退化(噪声、模糊、掩码);
- 剩余 25% 的 patch 在两个视图中共同退化。
每条训练样本配有一个标准化提示,结构如下:
- 融合任务使用
[FUSION]及子标签(如<light+>); - 控制任务使用
[CONTROL]; - 分割任务使用
[SEG]; - M3 数据仅用
[FUSION]。

IV. 实验
A. 实现细节
- 使用 8×A100 GPU 训练 2 轮,批量大小 64;
- 学习率 $ 1\times10^{-4} $,单步梯度累积;
- LoRA 秩为 64,条件 dropout 概率为 0.01。
B. 红外-可见光图像融合评估
在 MSRS、M3FD、TNO 等数据集上进行定性与定量比较。
定性对比
在过曝、雾天、低光场景中,DiTFuse 显著优于其他方法:
- 更有效地去除过曝伪影;
- 增强行人与车辆可见性;
- 雾天中更好保留建筑结构与红外纹理;
- 低光下结果更符合自然图像先验,减少红外伪影。
定量对比
在多个指标上达到 SOTA:
- MSE / PSNR:衡量像素级一致性,表明有效保留双模态纹理;
- MANIQA / LIQE / CLIPIQA+:无参考指标,评估多尺度纹理保真度与语义完整性。


C. 多焦点图像融合评估
定性对比
在 RealMFF 数据集上,DiTFuse 能更有效地融合近焦与远焦图像,残差图显示其成功整合了双焦平面的纹理细节。

定量对比
在 MFIF 与 RealMFF 上表现最优:
- SF / AG:衡量纹理复杂度与梯度丰富性;
- LIQE / MUSIQ / CLIPIQA+:评估语义清晰度。

D. 多曝光图像融合评估
在 SICE 数据集上,DiTFuse 更好地保留颜色与细节信息,在过曝区域能从欠曝输入中选取未受影响部分进行补偿。

E. 文本控制能力评估
展示了亮度与对比度的多级控制效果(图10):
- “base” 为无引导融合结果;
- 用户可通过提示词精细调整亮度(如
light++)或对比度(contrast+); - 特别适用于低光与多曝光场景,缓解光照不足导致的语义损失。

与其他文本控制方法对比(图11),DiTFuse 在对象级亮度控制(如仅提亮“cone”)上实现了更精细的区域控制。

F. 文本控制分割能力评估
首次在图像融合领域实现端到端语义控制分割图输出。
在 FMB 数据集上与 LISA 模型对比(Table III),DiTFuse 在多数类别上表现更优,总体 mIoU 达 47.60%。

为评估无标注数据集上的分割性能,我们设计了基于 GPT-4o 的三维评估协议:
- 精确率(Precision):分割区域是否包含错误内容?
- 召回率(Recall):目标对象是否被充分覆盖?
- IoU 准确性:轮廓是否准确对齐?
评估结果显示 DiTFuse 显著优于 LISA(Table IV)。






G. 运行效率对比
| 方法 | 参数量 (M) | 延迟 (s/样本) |
|---|---|---|
| DiTFuse | 3.846B | 53.551 |
| Text-DiFuse | 119.455 | 80.132 |
| TeRF | 8.025B | 72.181 |
尽管基于扩散模型,DiTFuse 在保持高性能的同时,推理速度优于多数同类方法,且优于依赖外部模型的文本控制方法。

H. 消融实验
1) 任务标签作用
移除任务标签会导致:
- 颜色失真;
- 生成不符合灰度输入的彩色结果;
- 对相反指令(如
contrast+vscontrast-)产生混淆。
2) 数据组成影响
- 仅用融合数据 → 输出平滑、类似平均;
- 仅用 M3 数据 → 出现块状伪影;
- 融合 + M3 数据 → 最佳效果,兼具内容选择与像素一致性。

3) M3 中退化多样性影响
| 退化类型 | MSE ↓ | PSNR ↑ | CLIPIQA+ ↑ |
|---|---|---|---|
| Blur only | 0.027 | 65.58 | 0.363 |
| Noise-Mask only | 0.027 | 65.48 | 0.363 |
| Gaussian Noise only | 0.026 | 64.17 | 0.257 |
| Mixed (M3) | 0.021 | 66.63 | 0.392 |

V. 结论
本文提出了一种基于 Diffusion Transformer 的指令控制一体化图像融合框架 DiTFuse,首次在融合领域实现了:
- 统一多模态融合与下游任务(如分割);
- 端到端文本控制融合与分割输出;
- 零样本泛化能力。
DiT 架构显式分离输入与输出通道,有效抑制模态冗余与干扰,提升融合结果的视觉清晰度与语义丰富性。
未来方向包括:将该范式拓展至图像去噪、去模糊、超分辨率等任务,构建真正的“全合一”视觉恢复与融合统一模型。
局限性
- 相比传统方法,DiT 生成管道运行时间较长;
- 编码过程存在轻微细节损失;
- 使用 GPT-4o 评估分割性能存在一定不确定性,但在无真实标签时是合理折衷。
最终目标:构建一个能有效处理多模态、支持高低层视觉任务的统一融合框架,是极具前景的研究方向。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)