论文阅读:连续光学变焦--面向真实场景任意尺度图像超分辨率的基准测试
这篇论文是 CVPR 2024 年的一篇,介绍了连续光学变焦的一个数据集的构建工作
Abstract
当前大多数任意尺度图像超分辨率(SR)方法通常依赖于由简单的合成退化模型(例如,双三次下采样)在连续的各种尺度下生成的模拟数据,因此在捕捉真实世界图像的复杂退化方面存在不足。这一局限性在将这些方法应用于真实世界图像时,会影响其视觉质量。为了解决这一问题,我们提出了连续光学变焦数据集(COZ),通过构建一个自动成像系统来收集特定范围内细粒度不同焦距下的图像,并提供严格的图像对配准。COZ 数据集可作为一个基准,为训练和测试任意尺度超分辨率模型提供真实世界的数据。
为了增强模型对真实世界图像退化的鲁棒性,我们基于多层感知器混合器(MLP-mixer)架构和元学习提出了局部混合隐式网络(LMI),该网络通过同时混合多个独立点的特征和坐标来直接学习局部纹理信息。大量实验表明,与在模拟数据上训练的模型相比,在 COZ 数据集上训练的任意尺度超分辨率模型具有更优越的性能。我们的 LMI 模型与其他模型相比展现出了更出色的有效性。这项研究对于开发更高效的算法以及提升任意尺度图像超分辨率方法在实际应用中的性能具有重要意义。

- 图 1 结果表明,在模拟数据集上训练的超分辨率(SR)模型难以处理现实世界中任意比例的问题,表现出明显的模糊和伪影。相比之下,我们的方法更加自然,并且在效果上可与现实世界中的连续光学变焦效果相媲美。
Introduction
在计算机视觉领域,超分辨率(SR)一直是一个重要的研究方向。它旨在从低分辨率(LR)图像重建出高分辨率(HR)图像。最近,在任意尺度图像超分辨率方面已经取得了重大进展,这主要基于对图像连续表示的学习。这些方法通常需要使用特定范围内(即,1.0 倍 - 4.0 倍)具有连续细粒度尺度变化的低分辨率 - 高分辨率图像对来进行训练。
然而,当我们将任意尺度图像超分辨率方法应用于实际应用中时,仍然存在一些问题。如图 1 所示,其中一个问题是,当前大多数方法都是在一些广泛使用的超分辨率数据集上进行训练和评估的,这些数据集包括 DIV2K [1]、Urban100 [17]、Manga109 [24]、Set5 [3]、Set14 [32] 以及 BSD300 [23]。一般来说,这些数据集采用简单的合成退化模型(例如,双三次下采样)来获取不同分辨率的数据。然而,尽管在模拟数据上取得了令人满意的结果,但现实世界中的图像退化情况更为复杂,这就导致在真实世界图像上的视觉效果较差。
另一个问题是,虽然已经提出了一些真实世界图像超分辨率数据集,包括最近的 RealSR [4]、City100 [6]、SR-RAW [33] 以及 DRealSR [30]。但是,这些数据集存在局限性,因为它们仅捕捉固定放大倍率尺度(例如,2 倍、3 倍、4 倍)下的图像对,缺乏对图像的连续表示。
考虑到这些问题,我们将它们总结为复杂的现实世界任意尺度图像超分辨率问题。当前的方法无法学习到真实世界图像的连续表示,导致超分辨率的结果缺乏视觉上的自然感。如图 1 所示,为了解决这个问题并提升当前任意尺度图像超分辨率方法的性能,使其质量能够达到类似光学变焦的效果,我们引入了一个新的数据集 —— 连续光学变焦数据集(COZ),它是首个用于任意尺度图像超分辨率的真实世界数据集。
我们设计并开发了一个连续光学变焦成像系统,在该系统中,光学镜头通过无线控制,在特定焦距范围内以渐进且均匀的方式旋转。我们从相同场景的低放大倍率到高放大倍率捕获了多对连续图像。通过使用基于尺度不变特征变换(SIFT)匹配点的两阶段图像对配准算法,我们获得了精确配准的真实世界低分辨率 - 高分辨率图像对。
这个数据集提供了丰富的、处于各种放大倍率尺度的真实世界图像对,用于训练任意尺度超分辨率模型,使得在现实世界场景中学习连续的图像退化成为可能。对比实验结果表明,当应用于真实图像时,在我们的真实世界图像数据上训练的模型优于在模拟数据上训练的模型。
为了增强模型对现实世界中复杂图像退化的鲁棒性,我们提出了一种基于多层感知器混合器(MLP-mixer)[28] 架构和元学习 [14] 的任意尺度图像超分辨率方法,名为局部混合隐式网络(LMI)。在现实世界中,纹理信息在空间中表现为多个坐标及其对应的 RGB 值。
我们的方法利用元学习来同时学习多个局部坐标信息,并生成混合权重,这些权重被应用于与不同坐标相关的特征上,以进行有效的混合。这与之前的方法有着根本的不同,之前的方法一次仅考虑一个坐标及其特征信息,这种方式容易受到复杂退化的干扰。实验结果表明,我们的方法在学习真实图像的连续表示方面是有效的,并且所需的参数更少。
这项工作的主要贡献如下:
- 据我们所知,这是首次针对现实世界中复杂的任意尺度图像超分辨率问题开展的研究工作。此外,我们构建了用于该任务的首个数据集。它可作为在现实世界中训练和测试任意尺度图像超分辨率模型的基准。
- 我们提出了局部混合隐式网络,该网络同时考虑多个独立的点坐标和特征,以混合的方式学习空间纹理信息,从而增强对现实世界图像退化的鲁棒性。
- 我们进行了大量实验,通过将我们的结果与最先进方法所产生的结果进行比较,来验证我们的数据集和局部混合隐式网络的有效性。
Continuous Optical Zooming Dataset
我们提出了一个名为连续光学变焦数据集(COZ)的基准数据集,以供任意尺度超分辨率方法学习真实世界的连续图像表示。我们构建了一个自动连续光学变焦成像系统来收集数据。这个系统使用一个远程控制传输设备,在预先定义的焦距范围内以渐进且均匀的方式旋转镜头,并在每次旋转后拍摄图像。这一过程有助于获取同一场景在特定焦距范围内具有细粒度焦距变化的多张图像。随后,我们应用了一种改进的两阶段尺度不变特征变换(SIFT)算法 [21],以实现不同分辨率图像的精确配准。

- 图 2 我们的连续光学变焦(COZ)数据集的示例序列。最上面一行展示了从在 35 毫米到 140 毫米焦距范围内拍摄的约 60 张图像中选取的 11 张图像样本。第二行展示了从这些图像中裁剪出中心区域后的对齐结果。
Basic Equipment
我们使用佳能 EOS R10 相机收集数据,该相机拥有 5328×4000 像素的分辨率。这台相机配备了一个光学变焦镜头,其焦距范围为 18 毫米到 150 毫米。我们将焦距、物距和像距分别记为 fff、uuu 和 vvv,并且相机在 u≫fu\gg fu≫f 且 u≫vu \gg vu≫v的假设条件下工作。考虑到像距 vvv 决定了图像的实际大小,让我们设想使用两个不同的焦距f1f_1f1和f2f_2f2以及对应的像距v1v_1v1和v2v_2v2来拍摄同一个物体。放大倍率,记为 MMM,可以表示如下:
M≈f1f2≈v1v2(1) M \approx \frac{f_1}{f_2} \approx \frac{v_1}{v_2} \tag{1}M≈f2f1≈v2v1(1)
小焦距往往会在图像边缘引发畸变问题,因此我们没有直接从 18 毫米焦距开始拍摄图像。相反,在训练数据采集过程中,我们选择 35 毫米至 140 毫米的焦距范围来获取连续光学变焦图像,根据公式(1)计算,其涵盖的放大倍率范围从 1.0 倍到 4.0 倍。对于测试数据,我们选择 25 毫米至 150 毫米的焦距范围来拍摄图像,放大倍率范围为 1.0 倍到 6.0 倍。
Automatic Continuous Zooming System
传统光学镜头需手动旋转来实现变焦功能。频繁手动操作镜头会使相机产生角度偏差,进而导致额外误差累积。我们开发了一套全自动连续变焦成像系统,如图 3 所示。首先,我们将镜头变焦环与传动带(C)紧密连接,取代手动变焦操作。下方的精密电机(B)转动传动带,推动镜头组件(D)前进,以此改变焦距。镜头变焦由精密电机控制,确保整个过程具备最高稳定性和精度。控制器接收来自智能手机的指令,自动完成拍摄流程。它先指示电机在特定焦距范围内转动镜头,记录总行程距离。然后,将总距离划分为多个等距区间,促使电机依次移动每个区间的距离并拍摄照片。

- 图 3 我们构建用于收集数据的自动连续变焦成像系统。A 是控制器,B 是电机,C 是传动带,D 是光学镜头。
Image Pair Alignment
在图像拍摄过程中,镜头变焦导致的亮度和分辨率变化,会给诸如 ORB [26]、SURF [2] 和 SIFT [21] 等广泛使用的图像配准算法带来挑战。为解决此问题,我们提出了一种两阶段 SIFT 算法。首先,在第一阶段进行亮度调整。从低分辨率(LR)图像和高分辨率(HR)图像中收集 SIFT 匹配点。无论分辨率如何,保持 SIFT 匹配点数量一致,能实现更精确的亮度调整。我们分别计算 LR 图像和 HR 图像中 SIFT 匹配点的 RGB 标准差和均值,记为σH\sigma_{H}σH、σL\sigma_{L}σL、μH\mu_{H}μH和μL\mu_{L}μL 。对于 LR 图像(ILI_{L}IL),应用如下亮度调整公式:
IL=σHσLIL+μH−σHσLμL(2) I_L = \frac{\sigma_H}{\sigma_L}I_L + \mu_H - \frac{\sigma_H}{\sigma_L}\mu_L \tag{2} IL=σLσHIL+μH−σLσHμL(2)
在对低分辨率(LR)图像进行亮度调整后,再次应用 SIFT 算法来裁剪图像对的对应区域。由于拍摄过程中引入的误差极小,并且亮度差异也得到了调整,配准结果呈现出高精度。图 2 展示了 COZ 数据集中拍摄图像及配准结果的示例。该图描绘了一个焦距范围为 35 毫米 - 140 毫米的场景,我们从总共 60 张拍摄图像中均匀采样了 11 张图像及其对应的配准图像对。图中为每张图像标注了相对于最低分辨率图像的放大倍率。
COZ Dataset Detail
我们的 COZ 数据集训练集包含 153 个场景,共计 9019 张图像。测试集包含 37 个场景。由于当前任意尺度图像超分辨率方法通常在特定固定放大倍率下进行评估,我们专门为测试数据挑选了放大倍率最接近特定倍率(2.0 倍、2.5 倍、3.0 倍、3.5 倍、4.0 倍、5.0 倍、5.5 倍、6.0 倍 )的图像。
在场景采集过程中,我们着重确保多样性,拍摄室内外生活场景中具有丰富纹理的物体,同时排除包含移动物体的场景。由于拍摄限制(如摩擦损耗 ),一小部分数据的最大放大倍率低于 4.0 倍(最低为 3.6 倍 )。因为在拍摄过程中我们匀速旋转镜头,与焦距变化对应的放大倍率变化并非真正均匀,导致高分辨率图像数量比低分辨率图像少。训练集中所有图像的放大倍率分布如图 4 所示。

- 图 4
Method
近期的任意尺度图像超分辨率方法 [5, 8, 10, 18, 29, 31] 通常采用一种围绕构建隐式函数来学习连续图像表示的方法。将一幅连续图像记为 III ,其内部坐标记为 xxx。低分辨率(LR)图像通过常用的编码器(如 EDSR [20] 和 RDN [35] )进行处理,以提取潜在编码 ZZZ,随后这些潜在编码被用于构建解码隐式函数 fff。超分辨率预测的表达式通常遵循以下形式:
I(x)=f(Z,x)(3) I(x) = f(Z, x) \tag{3} I(x)=f(Z,x)(3)
对于一个特定的查询点 xqx_qxq,假设 V∗V^*V∗ 是距离 xqx_qxq 最近的坐标,Z∗Z^*Z∗ 是与 V∗V^*V∗ 对应的潜在编码,那么 xqx_qxq 的 RGB 预测公式可以表示为
I(xq)=f(Z∗,V∗−xq)(4) I(x_q) = f(Z^*, V^* - x_q) \tag{4} I(xq)=f(Z∗,V∗−xq)(4)
这些方法通常孤立地关注单个坐标及其对应的潜在编码。当应用于通过简单线性合成退化模型生成的模拟数据时,它们表现出色,因为编码器能够熟练地将局部区域信息编码到潜在编码中。然而,现实世界中的图像退化要复杂得多,仅依靠一个坐标和潜在编码这样有限的参考信息,很容易导致结果不稳定。
在构建现实世界中的纹理信息时,纹理在空间上是通过多个坐标来呈现的,每个坐标都有其对应的 RGB 值。因此,同时考虑局部区域内的多个坐标及其对应的特征,是获取纹理信息的一种直接方式。
Local Mix Implicit Network

- 图 5
本研究引入了局部混合隐式网络(LMI),这是一种先进的模型结构,如图 5 所示。LMI 基于 mlp - mixer [28] 架构构建,旨在通过同时混合多个坐标及其对应的潜在编码,熟练地学习复杂的纹理信息。首先从局部区域提取大量潜在编码,每个潜在编码都被视为一个保留其坐标的标记。这些标记共同构成了基础空间信息。LMI 包含两个阶段的混合模块,如图 5(a)和(b)所示。
元空间混合模块(MSMM)建立在元学习 [14] 网络之上,将多个坐标信息转换为混合权重,以指导潜在编码的混合,有助于捕捉空间纹理细节。查询混合模块(QMM)专注于潜在编码内部的混合,将原始 RGB 值和坐标作为查询嵌入到相应的标记中。在最后一步,将从每个标记预测的结果进行集成,以增强整体的鲁棒性。
Local Token Unfolding
为获取足够的空间信息以捕捉纹理,我们提取距离查询点 xqx_qxq 最近的 4×44\times44×4 区域的潜在编码,将其记为{Zi∗}\{Z_{i}^*\}{Zi∗},其中 1≤i≤161\leq i\leq161≤i≤16 。我们保持潜在编码的独立性,将每个潜在编码视为一个独立的标记。这些标记经过扩展操作(unsqueezing operation ),并沿扩展维度进行拼接。令 Λ\LambdaΛ 表示拼接操作。我们将这些局部标记记为LT(xq)LT(x_q)LT(xq) ,并定义如下:
LT(xq)=Λ{unsqueeze(Zi∗)}(1≤i≤16)(5) LT(x_q) = \Lambda\{\text{unsqueeze}(Z_{i}^*)\} \quad (1 \leq i \leq 16) \tag{5} LT(xq)=Λ{unsqueeze(Zi∗)}(1≤i≤16)(5)
此外,为了恰当地学习局部区域信息,我们使用相对坐标。每个标记的坐标定义为{Vi∗}\{V_{i}^*\}{Vi∗},其中1≤i≤161\leq i\leq161≤i≤16 ,每个标记相对于查询坐标 xqx_qxq 的相对坐标定义为{Ci}\{C_{i}\}{Ci},其中1≤i≤161\leq i\leq161≤i≤16 。CiC_{i}Ci 定义为:
Ci=Vi−xq(1≤i≤16)(6) C_i = V_i - x_q \quad (1 \leq i \leq 16) \tag{6} Ci=Vi−xq(1≤i≤16)(6)
Meta Spatial Mix Module
为了从多个局部标记中提取空间纹理信息,我们引入了标记之间的混合操作。我们使用多层感知器(MLP)进行标记混合与交互,如图 5(c)所示。我们对 LT(xq)LT(x_q)LT(xq) 进行转置,使其通过 MLP 进行混合,然后再将结果转置回来。令 MLPsMLP_sMLPs 表示用于空间混合的 MLP,混合后的局部标记 LTM(xq)LTM(x_q)LTM(xq) 定义为:
LTM(xq)=(MLPs(LT(xq)T))T(7) LTM(x_q) = (MLP_s(LT(x_q)^T))^T \tag{7} LTM(xq)=(MLPs(LT(xq)T))T(7)
然而,如果我们直接对标记进行混合操作,虽然能增强每个标记的信息,但会忽略标记之间的局部空间关系。为解决这一问题,我们采用一种简单的方法,即将每个相对坐标 CiC_{i}Ci 与转置后的标记进行拼接,然后再进行混合。我们重复并扩展坐标,使其与转置后标记的形状匹配,再将它们与转置后的标记拼接起来。令 EEE 为扩展操作,公式(7)可改进为:
LTM(xq)=(MLPs(Λ(LT(xq)T,{CiE})))T(8) LTM(x_q) = (MLP_s(\Lambda(LT(x_q)^T, \{C_{i}^E\})))^T \tag{8} LTM(xq)=(MLPs(Λ(LT(xq)T,{CiE})))T(8)
混合网络同时学习坐标信息并混合标记,降低了网络效率。在图 5(a)中,我们采用元学习方法,利用一个独立网络学习空间坐标信息,并构建与所有标记形状相同的空间混合权重。我们将混合权重记为 WWW,并通过几个全连接层来计算它。权重计算网络表示为 ω\omegaω,我们引入一个缩放因子 rrr 来提高空间信息学习的准确性。权重的表达式如下:
W=ω({Ci},1/r)(9) W = \omega(\{C_{i}\}, 1/r) \tag{9} W=ω({Ci},1/r)(9)
然后将混合权重 WWW 与 LT(xq)LT(x_q)LT(xq) 拼接,并输入到混合网络MLPsMLP_sMLPs中,使网络能够专注于标记之间的混合,并获取足够的局部空间纹理信息。LTM(xq)LTM(x_q)LTM(xq)的最终表达式定义为:
LTM(xq)=(MLPs(Λ(LT(xq)T,W)))T(10) LTM(x_q) = (MLP_s(\Lambda(LT(x_q)^T, W)))^T \tag{10} LTM(xq)=(MLPs(Λ(LT(xq)T,W)))T(10)
Query Mix Module
经过空间混合后,每个标记都获取了局部纹理信息,增强了其为预测 xqx_qxq 的 RGB 值提供更好指导的能力。在这个阶段,我们纳入坐标信息 CiC_{i}Ci 进行解码。鉴于超分辨率(SR)是一项从一幅图像转换到另一幅图像的任务,图像中的原始 RGB 信息与预测的 RGB 值具有很强的相关性。由于每个标记都直接对应一个图像坐标,我们引入一种修改后的原始图像 “残差连接” 形式,并嵌入来自输入图像的相应坐标 Vi∗V_{i}^*Vi∗的 RGB 值,以补充标记信息。我们将用于查询混合的 MLP 记为MLPqMLP_qMLPq,坐标Vi∗V_i^*Vi∗的 RGB 值记为Ri∗R_i^*Ri∗,查询混合后的标记记为LTQ(xq)LTQ(x_q)LTQ(xq)。其表达式如下:
LTQ(xq)=MLPq(LTM(xq),{Ci,Ri∗})(1≤i≤16)(11) LTQ(x_q) = MLP_q(LTM(x_q), \{C_{i}, R_{i}^*\})_{(1 \leq i \leq 16)} \tag{11} LTQ(xq)=MLPq(LTM(xq),{Ci,Ri∗})(1≤i≤16)(11)
Ensemble
经过两个阶段的混合后,查询混合标记 LTQ(xq)LTQ(x_q)LTQ(xq) 被输入到一个全连接层进行输出。由于通过标记混合吸收了空间纹理信息,每个标记都获得了用于准确预测 xqx_qxq 值的有效指导。类似于 LIIF 的局部集成方法 [10] ,我们通过直接集成每个标记的输出,并根据 xqx_qxq 与 Vi∗V_{i^*}Vi∗ 之间矩形区域的面积计算权重,来计算坐标 xqx_qxq 处的 RGB 值。
Experiments
- 数据集:COZ 数据集用作监督训练的参考。低分辨率(LR) - 高分辨率(HR)图像对是从在同一场景中捕获的一组连续图像中选取的。LR 图像和 HR 图像的宽度分别表示为(W_L)和(W_H)。缩放因子s计算为(W_H / W_L)。
- 实现细节:我们遵循先前研究 [10, 16, 18] 中设定的实验配置。我们的方法采用 L1 损失和 Adam 优化器,编码器采用 EDSR - baseline [20] 或 RDN [35] 。输入图像块的大小固定为(48×48)。具体来说,我们从高分辨率图像及其对应的坐标中采样(48^2)个像素。尽管与模拟数据集 [1] 相比数据量减少了,但我们对所有模型进行 300 个轮次的训练。学习率初始设置为(1e - 4),在第 200 轮时衰减至(0.5)。批量大小设定为 16。对于其他任意尺度超分辨率(SR)方法 [5, 8, 10, 16, 18, 29, 31] ,我们保持其原始实验配置。所有模型的评估指标主要是峰值信噪比(PSNR)。我们在 RTX3090 GPU 上训练所有模型,并在 RTX A40 GPU 上进行测试。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)