TPAMI 2020 | U2Fusion:一种统一的无监督图像融合网络

2502_93853022

356人浏览 · 2026-05-08 23:45:58

2502_93853022 · 2026-05-08 23:45:58 发布

文章目录

@[TOC]

01 论文信息

02 论文主要贡献

03.方法

3.1问题建模

3.1.1 特征提取

3.1.2 信息度量

3.1.3 信息保留程度

3.2 损失函数

3.3 基于弹性权重巩固（EWC）的多融合任务单一模型

3.4 网络架构

3.5 RGB 输入处理

3.6 多输入处理

04.实验分析

4.1 可见光与红外图像融合

4.2 消融实验

4.2.1 弹性权重巩固（EWC）的消融实验

4.2.2 多任务相互促进的统一模型

4.2.3 自适应信息保留程度的消融实验

4.2.4 训练顺序的影响

4.2.5 U2Fusion 与 FusionDN 的对比

05 个人声明

01 论文信息

论文题目： U2Fusion: A Unified Unsupervised Image Fusion Network
论文作者： Han Xu，Jiayi Ma，Junjun Jiang，Xiaojie Guo，Haibin Ling
发表单位： 武汉大学，哈尔滨工业大学，天津大学，纽约州立大学石溪分校
发表会议\期刊： TPAMI 2020
代码链接： https://github.com/hanna-xu/U2Fusion

02 论文主要贡献

1.提出了适用于多种图像融合任务的统一框架。具体而言，我们利用一个统一的模型和统一的参数来解决不同的融合问题。该方案克服了诸多不足，如针对不同问题需采用不同解决方案、训练过程中存在存储和计算问题，以及持续学习中出现的灾难性遗忘问题。
2.设计了一种新的图像融合无监督网络。通过约束融合图像与源图像之间的相似性，该网络克服了大多数图像融合问题中普遍存在的障碍，即缺乏通用真值标签和无参考度量指标。
3.发布了一个新的对齐红外与可见光图像数据集 RoadScene，为图像融合基准评估提供了新选择。该数据集可在https://github.com/hanna-xu/RoadScene获取。
4.在六个数据集上针对多模态、多曝光和多聚焦图像融合任务对所提方法进行了测试。定性和定量结果均验证了 U2Fusion 的有效性和通用性。

03.方法

3.1问题建模

在这里插入图片描述

为了保留源图像中的关键信息，本模型通过信息度量来确定关键信息的丰富程度。若源图像包含丰富的信息，则该图像对融合结果至关重要，融合结果应与该源图像保持较高的相似性。
为解决不同类型源图像中的关键信息存在显著差异这一问题，本研究综合考虑源图像的多方面属性，提取浅层特征（纹理、局部形状等）和深层特征（内容、空间结构等），用于信息度量的计算，作为统一的度量方式以确定源图像的信息保留程度。
源图像为 $I_1$ , $I_2$ ，训练一个 DenseNet生成融合图像If。特征提取的输出为特征图 $ϕ C_ 1$ ( $I_ 1$ ),⋯, $ϕ C_ 5$ ( $I_ 1$ )和 $ϕ C_ 1$ ( $I_ 2$ ),⋯, $ϕ C_ 5$ ( $I_ 2$ )。对这些特征图进行信息度量，得到两个度量值gI1和gI2；经过后续处理，最终得到信息保留程度 $ω_1$ 和 $ω_2$ 。在损失函数中，需用到 $I_1$ 、 $I_2$ 、 $I_f$ 、 $ω_1$ 和 $ω_2$ ，整个过程无需真值标签。在训练阶段，通过计算ω1和ω2来定义损失函数，并优化 DenseNet 模块以最小化损失函数

3.1.1 特征提取

在这里插入图片描述

本研究采用预训练的 VGG-16 网络 进行特征提取，如图 4 所示。在模型中，输入图像 $I$ 首先被统一为单通道，然后复制为三通道输入到 VGG-16 中。取最大池化层之前（最大池化层会压缩图像尺寸、丢失部分细节）各卷积层的输出作为后续信息度量所需的特征图

with tf.device('/gpu:1'):
				# 将单通道输入图像调整为VGG16网络所需的224x224尺寸
				# 然后将单通道图像复制三次，转换为三通道图像（VGG16需要RGB输入）
				self.S1_VGG_in = tf.image.resize_nearest_neighbor(self.SOURCE1, size = [224, 224])
				self.S1_VGG_in = tf.concat((self.S1_VGG_in, self.S1_VGG_in, self.S1_VGG_in), axis = -1)
				self.S2_VGG_in = tf.image.resize_nearest_neighbor(self.SOURCE2, size = [224, 224])
				self.S2_VGG_in = tf.concat((self.S2_VGG_in, self.S2_VGG_in, self.S2_VGG_in), axis = -1)

				# 使用VGG16网络提取源图像1的多层特征
				# VGG特征能够捕获图像的高层语义信息
				vgg1 = Vgg16()
				with tf.name_scope("vgg1"):
					self.S1_FEAS = vgg1.build(self.S1_VGG_in)
				# 使用VGG16网络提取源图像2的多层特征
				vgg2 = Vgg16()
				with tf.name_scope("vgg2"):
					self.S2_FEAS = vgg2.build(self.S2_VGG_in)

在这里插入图片描述

为直观分析，图 5 展示了多曝光图像对的部分特征图。 $ϕ C_ 1$ ( $I$ )和 $ϕ C_ 2$ ( $I$ )对应的特征基于浅层特征（如纹理、形状细节），在这些层中，过曝光图像的特征图仍比欠曝光图像包含更多信息；相比之下，高层特征图 $ϕ C_ 4$ ( $I$ )和 $ϕ C_ 5$ ( $I$ )主要保留深层特征（如内容、空间结构），在这些层中，欠曝光图像的特征图包含与过曝光图像相当甚至更多的信息。因此，浅层特征与深层特征的结合，能够全面表征源图像的本质信息，而这些信息可能难以通过人类视觉感知系统直接察觉。

3.1.2 信息度量

为度量提取特征图中包含的信息，本研究采用特征图的梯度进行评估。与基于通用信息论的度量指标相比，图像梯度是基于局部空间结构的度量，感受野较小；在深度学习框架中，梯度在计算和存储效率上更具优势，因此更适合用于 CNN 中的信息度量。信息度量的定义如下 $g_{I} = \frac{1}{5} \sum_{j=1}^{5} \frac{1}{H_{j} W_{j} D_{j}} \sum_{k=1}^{D_{j}} \left\| \nabla \phi_{C_{j}^{k}}(I) \right\|_{F}^{2}$
其中， $ϕ C_ j$ ( $I$ )表示图 4 中第 j个最大池化层之前卷积层提取的特征图； k表示 $D_j$ 个通道中第 j个通道的特征图； $_F$ 表示弗罗贝尼乌斯范数,用于量化特征图梯度的强度; $\Delta$ 表示拉普拉斯算子,用于计算特征图的梯度。

3.1.3 信息保留程度

为保留源图像中的信息，需分配两个自适应权重作为信息保留程度，用于定义融合图像与各源图像之间相似性的权重。权重越高，意味着期望融合图像与对应源图像的相似性越高，该源图像的信息保留程度也越高。
记自适应权重为 $\omega_1$ 和 $\omega_2$ ，它们通过信息度量值 $g(I_1)$ 和 $g(I_2)$ 来估计。由于 $g(I_1)$ 和 $g(I_2)$ 的差值为绝对值，而非相对值，其差值可能远小于自身数值，难以体现两者的差异,因此引入一个预定义的正常数c对数值进行缩放，以实现更优的权重分配。因此， $\omega_1$ 和 $\omega_2$ 定义如下：
$\left[\omega_1, \omega_2\right] = \text{softmax}\left(\left[\frac{g_{I_1}}{c}, \frac{g_{I_2}}{c}\right]\right)$
其中，我们使用 $\text{softmax}$ 函数将 $\frac{g_{I_1}}{c}$ 和 $\frac{g_{I_2}}{c}$ 映射到 0 到 1 之间的实数，并确保 $\omega_1$ 和 $\omega_2$ 之和为 1。然后，将 $\omega_1$ 和 $\omega_2$ 用于损失函数，以控制特定源图像的信息保留度。

3.2 损失函数

损失函数的设计主要用于两个目的：一是保留源图像中的关键信息，二是训练适用于多种融合任务的单一模型。损失函数由两部分组成，定义如下：
$L(\theta, D) = L_{\text{sim}}(\theta, D) + \lambda L_{\text{ewc}}(\theta, D)$
其中， $\theta$ 表示 DenseNet 中的参数， $D$ 表示训练数据集。 $L_{\text{sim}}(\theta, D)$ 是融合结果与源图像之间的相似性损失。 $L_{\text{ewc}}(\theta, D)$ 是为持续学习设计的项，将在下一小节中描述。 $\lambda$ 是一个超参数，用于控制权衡关系。
我们从两个方面实现相似性约束，即结构相似性和强度分布。
由于结构相似性指标（SSIM）是最广泛使用的度量指标，它根据光、对比度和结构信息的相似性来模拟失真 [38]，因此我们使用它来约束 $I_1$ 、 $I_2$ 和 $I_f$ 之间的结构相似性。因此，在 $\omega_1$ 和 $\omega_2$ 控制信息保留度的情况下， $L_{\text{sim}}(\theta, D)$ 的第一项公式如下：
$L_{\text{ssim}}(\theta, D) = \mathbb{E}\left[ 1 - \omega_1 \cdot S_{I_f, I_1} - \omega_2 \cdot S_{I_f, I_2} \right]$
其中， $S_{x,y}$ 表示两个图像 $x$ 和 $y$ 之间的 SSIM 值。
对强度分布差异的约束，我们通过第二项来补充 $L_{\text{ssim}}(\theta, D)$ ，该项由两个图像之间的均方误差（MSE）定义：
$L_{\text{mse}}(\theta, D) = \mathbb{E}\left[ \omega_1 \cdot \text{MSE}_{I_f, I_1} + \omega_2 \cdot \text{MSE}_{I_f, I_2} \right]$
在 $\alpha$ 控制权衡关系的情况下， $L_{\text{sim}}(\theta, D)$ 公式如下：
$L_{\text{sim}}(\theta, D) = L_{\text{ssim}}(\theta, D) + \alpha \cdot L_{\text{mse}}(\theta, D)$

# ============ 损失函数定义部分 ============			
			# SSIM（结构相似性）损失：衡量生成图像与源图像之间的结构相似性
			# SSIM值范围在[0,1]，值越大表示越相似，因此损失 = 1 - SSIM
			# SSIM1: 生成图像与源图像1的结构相似性损失
			# SSIM2: 生成图像与源图像2的结构相似性损失
			''' SSIM loss'''
			SSIM1 = 1 - SSIM_LOSS(self.SOURCE1, self.generated_img)
			SSIM2 = 1 - SSIM_LOSS(self.SOURCE2, self.generated_img)
			
			# MSE（均方误差）损失：使用Frobenius范数计算生成图像与源图像之间的像素级差异
			# mse1: 生成图像与源图像1的均方误差
			# mse2: 生成图像与源图像2的均方误差
			mse1 = Fro_LOSS(self.generated_img-self.SOURCE1)
			mse2 = Fro_LOSS(self.generated_img-self.SOURCE2)
# ============ 加权损失计算 ============
			# 根据自适应权重对两个源图像的损失进行加权求和
			# ssim_loss: 加权后的结构相似性损失，信息更丰富的图像损失权重更大
			self.ssim_loss = tf.reduce_mean(self.s[:, 0] * SSIM1 + self.s[:, 1] * SSIM2)
			# mse_loss: 加权后的均方误差损失
			self.mse_loss = tf.reduce_mean(self.s[:, 0] * mse1 + self.s[:, 1] * mse2)
			
			# 最终的内容损失 = SSIM损失 + 20 * MSE损失
			# SSIM损失关注结构相似性，MSE损失关注像素级精度
			# 系数20用于平衡两种损失的尺度，确保两者对总损失的贡献相当
			self.content_loss = self.ssim_loss + 20 * self.mse_loss

3.3 基于弹性权重巩固（EWC）的多融合任务单一模型

不同的融合任务通常对特征提取和特征融合有不同要求，这直接体现在 DenseNet 参数的差异上，导致需要训练多个架构相同但参数不同的模型。然而，部分参数存在冗余，这些模型的利用率有较大提升空间。这促使我们训练一个具有统一参数的单一模型，整合多个模型的功能，从而适用于多种融合任务。
在这里插入图片描述
实现这一目标有两种方式：联合训练和顺序训练。
如图 6（a）所示，联合训练是一种简单的方法，在整个训练过程中保留所有训练数据，每次批量训练时随机选择多个任务的数据。但随着任务数量的增加，两个待解决的问题愈发突出：一是需长期存储先前任务的数据，导致存储压力大；二是需使用所有数据进行训练，在计算难度和时间成本上均面临挑战。
在顺序训练中，不同任务需使用不同的训练数据，如图 6（b）所示。因此，训练过程中仅需存储当前任务的数据，解决了联合训练中的存储和计算问题。但当模型为获取新能力而训练新任务时，会出现新的问题：先前任务的训练数据不可用。随着训练的持续进行，模型参数会为适应新任务而优化，同时遗忘之前任务的学习能力，这一问题被称为 “灾难性遗忘”。
为避免这一缺陷，本研究采用弹性权重巩固（EWC）算法进行改进。在 EWC 中，当前任务参数 $\theta$ 与先前任务参数 $\theta$ 之间的平方距离，会根据参数对 $\theta$ 的重要性进行加权，总损失函数中包含了用于持续学习的损失项 $L _{ewc}$ (θ,D)。设与参数重要性相关的权重为 $μ_i$ ，则 $L _{ewc}$ (θ,D)定义如下：
$L_{\text{ewc}}(\theta,D) = \frac{1}{2} \sum_{i} \mu_i (\theta_i - \theta_i^*)^2$
为评估参数重要性， $\mu_i$ 取费雪信息矩阵的对角线元素，并通过旧任务数据的梯度平方近似计算，定义如下：
$\mu_i = \mathbb{E}\left[ \left( \frac{\partial}{\partial \theta_i^*} \log p(D^* \mid \theta^*) \right)^2 \mid \theta^* \right]$
式中 “log p (D* | θ*)” 是旧任务数据 D在参数 θ下的 “对数似然”，反映 θ* 对旧数据的拟合能力；对 θᵢ求偏导（∂/∂θᵢ），得到 “参数 θᵢ* 变化对旧数据拟合能力的影响程度”；E • 平方后取期望（E [・]），最终得到 μᵢ，本质是 “旧任务中参数 θᵢ* 的梯度波动水平”，梯度越大，参数对旧任务越重要，μᵢ越大。 $\log p(D^* \mid \theta^*)$ 可近似替换为 $-L(\theta^*,D^*)$ ，因此上式可转换为：
$\mu_i = \mathbb{E}\left[ \left( -\frac{\partial}{\partial \theta_i^*} L(\theta^*,D^*) \right)^2 \mid \theta^* \right]$
由于费雪信息矩阵可在丢弃旧数据 $D^*$ 之前计算得到，因此模型训练当前任务时无需依赖 $D^*$ 。
在这里插入图片描述
若存在多个旧任务，需根据具体任务及对应数据调整 $\mathcal{L}_{\text{ewc}}(\theta,D)$ ，然后对各任务的梯度平方取平均，得到最终的 $\mu_i$ 。训练过程和数据流如图 7 所示。
在多任务图像融合中， $\theta$ 为 DenseNet 的参数。首先，训练 DenseNet 以解决任务 1（多模态图像融合），通过最小化相似性损失实现；当需要添加任务 2（多曝光图像融合）的处理能力时，先计算参数重要性权重 $\mu_i$ ，然后通过最小化 $\mathcal{L}_{\text{ewc}}$ 项巩固重要参数，避免灾难性遗忘，同时通过最小化相似性损失 $\mathcal{L}_{\text{sim}}$ 调整不重要参数，以适应多曝光图像融合任务；最后，训练 DenseNet 处理多聚焦图像融合任务时，根据前两个任务计算 $\mu_i$ ，后续的弹性权重巩固策略与任务 2 相同。通过这种方式，EWC 可适配多任务自适应图像融合场景。

3.4 网络架构

本研究采用 DenseNet 生成融合图像 $I_f$ ，是一种无需设计融合规则的端到端模型，其输入为 $I_1$ 和 $I_2$ 的拼接结果。
U2Fusion 中 DenseNet 的架构包含 10 层，每层均由卷积层和激活函数组成。所有卷积层的卷积核大小均设为 3×3，步长设为 1；卷积操作前采用反射填充(对输入特征图的边界进行 “镜像扩展”)，以减少边界伪影；未使用池化层，避免信息丢失。前 9 层的激活函数为 LeakyReLU（斜率设为 0.2），最后一层的激活函数为 tanh。
在前 7 层中，采用密集连接卷积网络（DenseNet）中的密集连接块，在每一层与所有其他层之间建立短连接直接连接，可减少梯度消失问题（反向传播时，梯度从输出层向输入层传递，每经过一层就被 “缩小” 一次，到了浅层（靠近输入层）的梯度几乎趋近于 0），同时增强特征传播并减少参数数量。特征图的通道数均设为 44；后续 4 层逐步减少特征图的通道数，最终输出单通道融合图像。
在这里插入图片描述

self.batchsize = BATCH_SIZE
		# 初始化生成器网络(编码器-解码器架构)
		# 编码器: 2通道输入 -> 5层密集卷积块 -> 264通道特征(44*6)
		# 解码器: 264通道特征 -> 4层卷积 -> 1通道输出
		self.G = Generator('Generator')
		self.var_list = []

		# 定义两个输入源图像(单通道灰度图)
		self.SOURCE1 = tf.placeholder(tf.float32, shape = (BATCH_SIZE, INPUT_H, INPUT_W, 1), name = 'SOURCE1')
		self.SOURCE2 = tf.placeholder(tf.float32, shape = (BATCH_SIZE, INPUT_H, INPUT_W, 1), name = 'SOURCE2')

		self.c = tf.placeholder(tf.float32, shape = (), name = 'c')
		print('source shape:', self.SOURCE1.shape)

		# 网络前向传播: 将两个输入图像输入生成器网络,得到融合后的图像
		# 内部流程: concat(I1, I2) -> 编码器(特征提取) -> 解码器(图像重建) -> 融合图像
		self.generated_img = self.G.transform(I1 = self.SOURCE1, I2 = self.SOURCE2, is_training = is_training, reuse=False)
		self.var_list.extend(tf.trainable_variables())

3.5 RGB 输入处理

首先将 RGB (色彩信息与亮度信息混合存储)输入转换到 YCbCr 颜色空间(Y 通道由 R、G、B 加权求和得到,Cb、Cr 通道通过 “原色与亮度的差值” 计算)，仅对 Y 通道（亮度通道）通过 U2Fusion 的核心网络（DenseNet）进行融合 —— 因为图像的结构细节主要集中在 Y 通道，且该通道的亮度变化比色度通道更显著,Cb 和 Cr 通道（色度通道）采用传统方法(加权平均策略）融合，公式如下：
$C_f = \frac{C_1 \cdot |C_1 - \tau| + C_2 \cdot |C_2 - \tau|}{|C_1 - \tau| + |C_2 - \tau|}$
其中， $C_1$ 和 $C _2$ 分别表示两幅源图像的 Cb/Cr 通道值， $C _f$ 表示融合结果的对应通道值， $τ$ 设为 128。随后，通过逆转换将融合图像转换回 RGB 空间，从而将所有图像融合问题统一为单通道图像融合问题。

def rgb2ycbcr(img):
	"""
	RGB到YCbCr颜色空间转换函数	
	- Y通道（亮度通道）：由R、G、B加权求和得到，反映图像的亮度信息	 
	  其中权重系数基于人眼对不同颜色的敏感度  
	- Cb通道（蓝色色度）：通过"蓝色与亮度的差值"计算	   
	- Cr通道（红色色度）：通过"红色与亮度的差值"计算	  		
	"""
	R=img[:,:,0]
	G=img[:,:,1]
	B=img[:,:,2]
	Y = 0.299 * R + 0.587 * G + 0.114 * B
	Cb = -0.1687 * R - 0.3313 * G + 0.5 * B + 128 / 255.0
	Cr = 0.5 * R - 0.4187 * G - 0.0813 * B + 128 / 255.0
	return Y, Cb, Cr


def fuse_chroma_channels(C1, C2, tau=128/255.0):
	"""
	Cb和Cr通道（色度通道）融合函数	
	"""
	abs_diff1 = np.abs(C1 - tau)
	abs_diff2 = np.abs(C2 - tau)
	# 避免除零
	denominator = abs_diff1 + abs_diff2 + eps
	C_f = (C1 * abs_diff1 + C2 * abs_diff2) / denominator
	return C_f

# Y通道融合：通过U2Fusion的核心网络（DenseNet）对Y通道进行融合
def ycbcr2rgb(Y, Cb, Cr):
	"""
	YCbCr到RGB颜色空间的逆转换函数	
	将融合后的Y通道与处理后的Cb、Cr通道重新组合，转换回RGB颜色空间。
	"""
	R = Y + 1.402 * (Cr - 128 / 255.0)
	G = Y - 0.34414 * (Cb - 128 / 255.0) - 0.71414 * (Cr - 128 / 255.0)
	B = Y + 1.772 * (Cb - 128 / 255.0)
	R = np.expand_dims(R, axis=-1)
	G = np.expand_dims(G, axis=-1)
	B = np.expand_dims(B, axis=-1)
	return np.concatenate([R, G, B], axis=-1)

3.6 多输入处理

在这里插入图片描述

在多曝光和多聚焦融合中，需融合源图像序列（即源图像数量超过两幅）。此时，可对源图像进行序贯融合：如图 9 和图 10 所示，首先融合两幅源图像，得到中间结果；然后将中间结果与另一幅源图像融合。

04.实验分析

4.1 可见光与红外图像融合

在这里插入图片描述
U2Fusion 的融合结果清晰度高于其他对比方法。

U2Fusion 还可用于融合 RoadScene 数据集中的 VIS（RGB）图像与灰度 IR 图像，由于融合仅在 Y 通道( 负责承载亮度与结构细节)进行,Cb、Cr 通道直接沿用 VIS 图像的原始色度数据，因此融合结果更接近经 IR 图像增强的 VIS 图像。
在这里插入图片描述
四个度量指标：相关系数（CC）、结构相似性（SSIM）、峰值信噪比（PSNR）、差异相关(SCD)。其中，CC 衡量源图像与融合结果之间的线性相关程度；PSNR 评估融合过程导致的失真；SCD 量化融合图像的质量。
U2Fusion 在两个数据集的 CC、SSIM、PSNR 指标上均排名第一，在 SCD 指标上与最优结果相差较小。

4.2 消融实验

4.2.1 弹性权重巩固（EWC）的消融实验

为验证 EWC 的有效性，设计对比实验：不使用 EWC，对任务进行序列训练。从三个维度分析 EWC 的有效性：相似性损失、 $μ_i$ 的统计分布、训练阶段的中间融合结果。
在这里插入图片描述
相似性损失的变化如图 18 所示。任务 2开始训练后 ,任务 1 的损失差异不明显；但训练任务 3 时，不使用EWC时任务 2 验证集的损失显著增加.

$μ_i$ 的统计分布如图 19 所示。不使用 EWC 时，三个任务训练完成后 $μ_i$ 的分布差异不大（左图），参数仅与当前任务相关， $μ_i$ 仅反映参数对当前任务的重要性；而使用 EWC 后，大值 $μ_i$ 的比例显著增加（右图），表明网络中出现了更多重要参数，小值 $μ_i$ 的比例下降，说明网络冗余减少. 在这里插入图片描述 定性对比结果如图 20 所示。不使用 EWC 时，模型在任务 2 上图像整体亮度降低，且任务 1 的结果在（b）（c）中存在明显差异；而使用 EWC 后，这两个问题均得到缓解。

4.2.2 多任务相互促进的统一模型

在这里插入图片描述
与单独训练的模型相比，经多曝光图像融合训练的统一模型 U2Fusion，对这些过曝光区域的处理效果更优，表征更清晰，U2Fusion 的结果边缘比单独训练模型的结果更清晰锐利。

4.2.3 自适应信息保留程度的消融实验

在这里插入图片描述
如图 22 所示,第一行为 $ω _1$ 和 $ω _2$ 固定为 0.5 的结果(模型对两个源图像的信息 “平均分配权重”)，第二行为 U2Fusion 的结果,无自适应信息保留程度的结果效果更差.

4.2.4 训练顺序的影响

在这里插入图片描述

通过图23定性分析和表5定量分析，多模态和多曝光的训练顺序对融合结果影响较小，而多聚焦的训练顺序影响相对显著，平均梯度大幅下降。“多模态→多曝光→多聚焦” 的顺序性能最优，因此 U2Fusion 采用该训练顺序。

4.2.5 U2Fusion 与 FusionDN 的对比

在这里插入图片描述
首先，改进了信息保留程度分配策略，基于提取特征的信息度量进行分配。图 24 的第一、二列U2Fusion保留了源图像中更多的细节。
其次，修改了损失函数：第四、五列中 FusionDN 的结果,U2Fusion 移除梯度损失后，通过 SSIM 和改进的信息保留程度分配策略保留结构信息，结果仍保持清晰，且伪边缘得到缓解。
此外，FusionDN 仅通过 SSIM 保留强度分布，U2Fusion 新增 MSE 损失后，亮度偏差问题得到解决，最后一列U2Fusion 结果的强度与源图像更接近。
最后，将首个任务从 VIS-IR 图像融合扩展为多模态图像融合（涵盖 VIS-IR 和医学图像融合）。第三列中 FusionDN 的结果边缘模糊、背景呈灰色，而 U2Fusion 的结果显著更优。

05 个人声明

本文为作者对原论文的学习笔记与心得分享，受个人学识与理解所限，文中对论文内容的解读或有不够周全之处，一切以原论文正式表述为准。本文仅用于学术交流与传播，内容均由作者独立整理完成，不代表本公众号立场。如文中所涉文字、图片等内容存在版权争议，请及时与作者联系，作者将在第一时间核实并妥善处理。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

2026年 Java 面试新特点

2026年Java面试呈现五大新趋势：1）JDK21+新特性成为必考内容，重点关注虚拟线程、结构化并发和新一代GC；2）AI融合能力成为核心考察点，包括大模型接口对接、RAG架构和稳定性治理；3）八股文转向场景化考察，强调工程实践与线上问题排查；4）重视人机协作能力，评估AI工具使用和代码治理水平；5）面试更注重结构化表达与业务落地效果，要求结果导向的简历呈现和逻辑清晰的答辩能力。整体趋势表明，J