论文翻译：Diff-Retinex: Rethinking Low-light Image Enhancement with A GenerativeDiffusion Model

Luu_uu_uu

741人浏览 · 2025-07-08 23:36:25

Luu_uu_uu · 2025-07-08 23:36:25 发布

摘要：

在本文中，我们重新思考了低光照图像增强任务，提出了一种兼具物理可解释性和生成能力的扩散模型，称为Diff-Retinex。我们的目标是整合物理模型与生成网络的优点，并通过生成网络补充甚至推断低光照图像中缺失的信息。因此，Diff-Retinex将低光照图像增强问题转化为Retinex分解和条件图像生成两个部分。在Retinex分解阶段，我们结合Transformer中注意力机制的优势，精心设计了Retinex Transformer分解网络（TDN），将图像分解为光照图和反射图。随后，我们设计了多路径生成扩散网络，分别重建正常光照下的Retinex概率分布，并解决各分量中的多种退化问题，包括光照不足、噪声、颜色偏差以及场景内容丢失等。得益于生成扩散模型，Diff-Retinex实现了对低光照图像细微细节的修复。在真实低光照数据集上进行的大量实验，从定性和定量两方面验证了所提方法的有效性、优越性和泛化能力。

1.介绍

在低光照环境下拍摄的图像通常会受到多种退化因素的影响，例如不规则噪声、低对比度以及多变的色彩偏差等。其中，场景结构的丢失是最棘手的问题。如图1所示，场景结构的缺失不仅影响视觉效果，还会导致图像信息量的减少。图像增强技术能有效降低这些退化因素对人类感知和后续视觉任务的干扰，最终呈现高质量的图像。

为应对这些退化问题，研究者们提出了多种低光照图像增强（LLIE）方法[20,26]。此外，关于对比度增强、噪声消除和纹理保持的研究也相继展开。主流LLIE方法大致可分为传统方法[35,3]和基于学习的方法[22,15,25,23,18]。传统算法通常基于图像先验或简单的物理模型，例如通过线性或非线性手段调整强度分布的灰度变换[35,14]和直方图均衡化[5,34]。Retinex模型[12,16,24]则将图像分解为光照图和反射图，并采用传统优化方法求解。然而，这些方法依赖人工设计和优化驱动的效率，普遍存在泛化性和鲁棒性不足的问题，限制了其应用范围。

为克服这些缺陷，深度学习被用于构建从低光照到正常光照图像的复杂映射[22,38]。部分方法将低光照增强完全视为通过整体拟合实现的复原任务，缺乏物理模型的理论支持和可解释性。与基于物理模型的方法相比，这类方法的增强效果往往缺乏针对性，表现为光照不均、抗噪性差等。其主要原因在于未能明确定义某些退化类型并对其进行针对性处理。基于物理模型的方法将图像分解为具有物理意义的成分，再对各成分进行特定处理以实现更有针对性的增强。

然而，现有方法仍难以摆脱"拟合"的本质局限。具体而言，虽然现有方法能通过去噪更好地呈现失真场景，却无法修复缺失的场景内容。以图1为例，最先进的方法（URetinex[40]）不仅无法恢复微弱或缺失的细节，甚至会在一定程度上加剧信息失真。为解决这一问题，并考虑到LLIE是在低光照图像引导下恢复正常光照图像的过程，我们通过生成式扩散模型重新思考LLIE任务。我们的目标不仅是恢复原始低光照图像中的微弱信息，更能推理出已丢失的信息。因此，LLIE不仅被视为复原拟合任务，更是一种带条件的图像生成任务。在生成模型方面，生成对抗网络（GAN）[36,46]通过对抗机制训练生成器和判别器，但其训练过程不稳定，容易出现模式坍塌、不收敛及梯度爆炸/消失等问题。此外，基于GAN的LLIE方法仍存在前述问题——通过整体拟合直接生成正常光照图像，缺乏物理可解释性。

为此，我们提出了一种兼具物理可解释性和生成能力的低光照图像增强模型Diff-Retinex，旨在整合物理模型与生成网络的优点。Diff-Retinex将低光照增强问题转化为Retinex分解和条件图像生成两个阶段。在Retinex分解阶段，我们融合Transformer[21,41]的特性，精心设计了Retinex Transformer分解网络（TDN）以提升分解适用性。TDN将图像分解为光照图与反射图，随后设计基于生成扩散的网络分别解决各成分中的多种退化问题，包括光照不足、噪声、色彩偏差和场景内容丢失等。

主要贡献：

生成式增强视角创新：从条件图像生成的角度重新思考低光照增强任务。突破传统方法仅增强原始低质量信息的局限，提出生成式Retinex框架，有效补偿低光照导致的内容缺失与色彩偏差问题。
分解网络架构突破：针对Retinex模型中的分解难题，提出新型Transformer分解网络（TDN）。该网络充分利用注意力机制与层级依赖特性，即使对高分辨率图像也能实现高效分解。
跨模型融合首创：据我们所知，这是首个将扩散模型与Retinex模型结合用于低光照增强的研究。通过扩散模型引导光照图与反射图的多路径调整，显著提升增强性能。

2. 相关工作

2.1 基于Retinex的低光照增强方法

视网膜皮层（Retinex）理论基于色彩恒常性模型和人类视觉系统（HVS）对颜色的主观感知[13]，其核心是将图像分解为光照图与反射图。该理论已被广泛应用于低光照图像增强领域，并被证明具有可靠的有效性。

传统方法：早期研究通过高斯滤波器或滤波器组（如SSR[10]和MSR[9]）实现光照/反射图的分离。LIME[4]通过初始化三通道最大值并施加结构先验优化来估计光照图；JED[32]则结合序列分解与伽马变换实现图像增强与噪声抑制。这类方法普遍存在泛化能力差、鲁棒性不足的缺陷，制约了实际应用。

深度学习方法：Retinex-Net[39]首次将Retinex分解范式与深度学习结合，采用分阶段分解-调整结构，并利用BM3D[2]进行去噪。KinD[44]和KinD++[43]延续该范式，使用卷积神经网络（CNN）学习分解与调整的映射关系。Robust Retinex[45]创新性地将图像分解为光照、反射和噪声三个分量，通过损失引导的迭代实现噪声估计与光照恢复。尽管这些方法表现出色，但基于CNN的分解受卷积运算局限，难以充分利用全局信息，且面临损失函数设计困难、缺失场景内容补全等挑战。

2.2 生成式低光照增强方法

随着变分自编码器（VAE）[11]、生成对抗网络（GAN）[36,46]等生成模型的发展，图像生成技术取得显著突破。生成模型将低光照图像作为条件输入，直接生成对应正常光照图像，为低光照增强提供了新思路。EnlightenGAN[8]设计单一生成器实现端到端映射，结合全局与局部判别器提升效果；CIGAN[28]采用循环交互式GAN实现正常光-低光图像间的双向生成与信息传递。然而GAN存在训练困难、损失函数收敛不稳定等固有缺陷。

近年来，扩散模型[7,29,31]作为新一代生成模型，在图像生成/修复等领域取得突破性进展，克服了GAN的诸多缺点并打破其长期垄断地位。本文首次探索了Retinex模型与扩散模型的创新结合路径。

3. 方法

如图2所示，Diff-Retinex的整体框架包含两个核心模块：首先基于Retinex理论通过Transformer分解网络将输入图像分解为光照图与反射图，随后通过多路径扩散生成调整网络（包括反射图扩散调整和光照图扩散调整）分别优化各分量，最终将调整后的分量相乘得到增强结果。

3.1 Transformer分解网络

经典Retinex理论将图像建模为：

其中I为输入图像，R和L分别代表反射图与光照图。这是一个典型的病态逆问题——反射图反映场景本质内容，应在不同光照条件下保持恒定；光照图则与照明条件相关，需保持局部平滑性。

对于含噪声的退化图像，我们遵循"光照图局部平滑"的分解特性，将噪声归入反射图分量。分解过程的优化目标表示为：

其中：

τ(R·L)保证图像可重构性
φ(R)约束反射图一致性
ψ(L)强制光照图分段平滑
α、β为超参数

3.1.1 损失函数设计

基于配对低光/正常光图像（ $I_l$ , $I_n$ ）训练，其分解结果记为( $R_l$ , $L_l$ )和( $R_n$ , $L_n$ )：

重构损失：确保分解可逆性

（α_rec调节不同光照条件的贡献权重，ξ(·)为光照/反射图交叉相乘的辅助函数）
反射一致性损失：保持反射图光照不变性

考虑到物体的反射率在不同光照条件下是不变的，我们对不同光照条件下反射率图的一致性进行了约束。具体来说，可以描述为：

光照平滑损失：加权梯度约束光照平滑性

（权重矩阵W_T = e^{-c·∇I}，对平滑区域施加更大惩罚）

总损失函数为加权求和：

3.1.2 网络架构

如图2所示，Transformer分解网络（TDN）由两条分支组成：反射分解分支和照射分解分支。给定一张需要分解的图像 $I\in \mathbb{R}^{H \times W \times 3}$ ，TDN首先通过卷积投影获取其嵌入特征 $F_{init} \in \mathbb{R}^{H \times W \times C}$ 。在照射分解分支中，网络由若干卷积层构成，在保证分解效果的前提下减少计算量。为了确保照射图和反射图的内在特性，并提高反射图的恢复性能和信息保留能力，反射分解分支由多阶段的Transformer编码器和解码器组成。具体来说，Transformer编码器和解码器由注意力（Atten）模块和前馈网络（FFN）模块构成。一般来说，我们将TDN模块中的计算表示为：

其中，Norm表示归一化，Fi−1F_{i-1}Fi−1是当前TDN模块的输入特征图。

考虑到Transformer中的高注意力计算开销，时间复杂度与图像的平方大小成正比。因此，它不适合用于高分辨率图像的分解。为了解决这个问题，我们设计了一种新型的多头深度卷积层注意力（MDLA）机制，用于在TDN中计算注意力形式，如图3所示。在保持分解性能的前提下，它极大地减少了注意力计算的复杂度。

在MDLA中，对于从Layer-Norm得到的特征 $X \in \mathbb{R}^{h \times w \times c}$ ，我们首先通过 1×1 卷积聚合其通道方向的信息。随后，使用 3×3、5×5和 7×7的卷积进一步聚合信息。多个卷积的输出分别为查询（Queue）。我们通过 1×1 卷积减少特征维度，并对特征进行重塑后，计算层方向的注意力。具体地，可以表示为公式（9）：

我们采用了一种简单而有效的深度可分离前馈网络，它主要由可分离的点卷积和深度卷积组成，以最小化计算量。给定一个通过Layer-Norm得到的特征 X∈Rh×w×cX \in \mathbb{R}^{h \times w \times c}X∈Rh×w×c，输出特征可以表示为：

其中，WpcW_{pc}Wpc 和 WdcW_{dc}Wdc 分别是点卷积和深度卷积，ϕ\phiϕ 是激活函数。

3.2 扩散生成调整

扩散生成调整旨在构建Retinex模型的原始数据分布，以恢复多个通道。通常，它可以分为两条路径，即反射扩散调整（RDA）和照射扩散调整（IDA）。

正常光图像组件记作 $I_0 \in \mathbb{R}^{H \times W \times C}$ （在RDA中，C=3，在IDA中，C=1）用于扩散。条件图像分别与噪声图像拼接形成指导图像。我们采用Denoising Diffusion Probabilistic Model（DDPM）[7]中提出的扩散过程来构建每个通道的Retinex数据分布。更具体地，它可以描述为一个前向扩散过程和一个逆向扩散过程，如图4所示。

前向扩散过程

逆向扩散过程

4. 实验

4.1 实现细节与数据集

实现细节：
所提的Diff-Retinex模型是分别训练的。首先训练TDN（图像去噪网络）。根据经验，我们设定γrc = 0.1，γsm = 0.1，αrec = 0.3。学习率为lr = 0.0001，批处理大小为16，采用Adam优化器。然后，我们训练与扩散生成调整相关的网络。IDA和RDA的步骤设定为t = 1000，γct = 1。输入图像的尺寸为160 × 160，批处理大小为16。使用学习率为0.0001的Adam优化器进行800K次迭代训练。所有实验均在NVIDIA GeForce RTX 3090 GPU上使用PyTorch框架进行。

数据集：
为了验证模型的泛化能力，我们在LOL [39] 和 VE-LOL-L [17] 数据集上进行了实验。LOL数据集中的所有图像均为真实场景拍摄。我们使用了485对图像进行训练，15张低光图像用于测试。VE-LOL数据集包含高层次和低层次视觉任务数据，分别称为VE-LOL-H和VE-LOL-L。VE-LOL-L也用于评估我们方法的有效性。DICM数据集则作为跨测试的评估数据集用于泛化性测试。

4.2 结果与分析

我们将定量和定性结果与当前最先进的方法进行了比较，包括传统方法和基于深度学习的方法。传统方法包括基于照明估计的LIME [4]，以及基于Retinex分解和联合去噪的JED [32]。基于学习的方法包括RetinexNet [39]、KinD [44]、KinD++ [43]、RUAS [19]、EnlightenGAN [8]、URetinex [40] 和 LLFormer [38]。

定性比较：
定性结果如图5和图6所示。我们的Diff-Retinex方法展现了三个显著的优势。首先，Diff-Retinex具有纹理补全和缺失场景生成的能力，这是我们生成扩散模型的显著特点，而现有方法无法实现这一点。如图5所示，右侧突出显示的区域为地面上的粗颗粒纹理瓷砖（见真实图像）。所有竞争方法都未能恢复粗颗粒纹理瓷砖，而我们的方法能够生成与真实图像相似的缺失纹理。类似地，图6中的跳水平台和扶手在低光图像中严重缺失和损坏，大多数方法无法补全清晰的纹理，而Diff-Retinex却能够。其次，我们的方法在光照和颜色保真度上表现更好。如图5所示，低光图像具有明显的颜色偏差，而Diff-Retinex的颜色最接近真实图像。KinD、KinD++、RetinexNet和URetinex等方法在不同程度上存在颜色偏差，例如URetinex和KinD++往往呈现黄色调。在图6中，Diff-Retinex在场馆颜色的表现上也优于其他最先进的方法。最后，我们的结果展现了更生动的纹理和较少的噪声。LIME和RetinexNet在整幅图像中有更多的噪声，影响了场景表达。EnlightenGAN和LLFormer在平坦区域的去噪效果不理想，例如图5中计算机桌下方和墙壁的黑色区域。总体而言，Diff-Retinex在这些方面表现出明显的优势。

定量比较：
采用FID [6]、LPIPS [42]、BIQI [27]、LOE [37] 和 PI [1] 进行评价。FID是机器特征相似度，用于评估图像相似度；LPIPS是学习的感知图像块相似度，用于衡量图像差异；BIQI是图像盲质量评价指标；LOE是图像亮度的序列误差，反映图像的自然保持能力；PI代表图像的主观感知质量。FID、LPIPS、BIQI、LOE和PI值越低，图像质量越好。LOL和VE-LOL-L数据集上的定量结果如表1所示。在LOL数据集上，我们的方法在生成指标FID和LPIPS上具有显著优势，这表明我们的结果具有更好的机器视觉生成相似性。在亮度序列误差方面，我们的方法略低于LLFormer。然而，得益于生成扩散模型和TDN，它在所有基于Retinex的方法中表现最好，包括RetinexNet、KinD、KinD++ 和 URetinex。对于VE-LOL-L数据集，我们的方法在各项指标上也取得了综合最佳的表现。这表明我们的方法在各种场景下具有强大的泛化能力和先进的生成增强性能。对于DICM数据集，如图7所示，我们的方法同样展现了竞争力。此外，我们还提供了PSNR和SSIM的定量比较，见表2。

4.3 消融研究

Transformer分解网络
为了验证Transformer分解网络（TDN）的有效性，我们对分解过程进行了可视化。Retinex分解是一个不适定问题，无法找到精确的最优解。核心问题在于，反射信息应该在不同光照水平下严格一致。典型且有效的表示方法通常采用CNN进行分解，例如RetinexNet和KinD++。反射分解的结果如图8所示。

生成扩散模型
为了验证扩散模型的有效性，一方面，我们对RDA和IDA的生成过程进行了可视化，如图9所示；另一方面，我们对比了通过我们的扩散模型与一些其他一步Retinex基础LLIE方法恢复的反射图。我们使用反射图进行比较，因为它包含大量颜色和纹理信息，这对于视觉感知更加敏感。典型的Retinex基础LLIE方法包括RetinexNet和KinD++。对于反射恢复，RetinexNet采用BM3D，而KinD++采用CNN。结果如图10所示。不同方法的Retinex分解结果差异较大，我们展示了各自从正常光照图像中分解的反射图作为基准进行比较。可以看出，我们的方法能够更好地处理颜色偏差，并在纹理恢复方面表现得更好。我们还计算了恢复后的反射图与对应的真实图之间的FID、LPIPS和BIQI指标，以进行定量评估。结果见表3。

4.4 讨论

尽管作为低光图像增强的生成模型，Diff-Retinex展现了令人称赞的视觉效果，但在像素级误差指标（如PSNR）上未能展现出绝对优势，如表2所示。通过更严格的约束可以获得更高的PSNR，但生成效果会在一定程度上被削弱。在本文中，我们鼓励采用生成性扩散模型来探索低光增强任务中生成效果的可能性。当然，通过扩散模型也可以实现更好的像素级错误性能。

5. 结论

本文重新思考了低光图像增强任务，并提出了一种生成性的Diff-Retinex模型。Diff-Retinex将低光增强任务形式化为分解和图像生成的范式。它能够自适应地将图像分解为光照图和反射图，并通过生成扩散模型解决各种退化问题。实验结果表明，Diff-Retinex具有出色的表现，能够将低光图像增强中的细节补全和推理恢复带入现实。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

从 LLM 到 Agent Skill —— 一文打通 AI 核心概念底层逻辑

LLM、Token、Prompt、RAG、Agent一文打通 AI 核心概念底层逻辑

AtomGit开源社区

Kubernetes 的诞生：一场由容器革命引发的编排战争

更重要的是，它通过 CRI（容器运行时接口）、CNI（网络插件接口）和 CSI（存储插件接口）等标准化接口，实现了与底层技术的解耦，使其能够兼容 Docker、containerd 等多种运行时，以及任何符合标准的网络和存储方案。这种“声明式终态驱动”的模型，彻底颠覆了传统运维中“命令式脚本执行”的被动模式，让系统具备了强大的自愈能力和确定性。它又站在了 Google Borg/Omega 巨人的