掌握小波变换+CNN,发中科院二区及以上不是问题!
近期的计算机视觉研究越来越关注如何突破传统卷积网络在空间域处理的局限性。本次解析的两篇论文共同探索了将频率域信息,特别是**小波变换 (Wavelet Transform)**,融入深度学习模型以解决不同挑战。
第一篇论文《MLWNet》聚焦于图像去模糊任务,针对现有模型在处理真实运动模糊时的复杂性和细节恢复不足问题,提出了一种高效的单输入多输出 (SIMO) 架构,并首创性地设计了**可学习离散小波变换 (Learnable DWT)**模块。该模块能自适应地学习数据特征,有效捕捉模糊轨迹的方向性和高频细节,在提升去模糊效果的同时,显著提高了计算效率。
第二篇论文《SFFNet》则致力于解决遥感图像分割中的难题,即阴影、边缘等灰度剧变区域的精确分割。它构建了一个创新的双阶段网络,在提取空间特征后,通过**小波变换特征分解器 (WTFD)引入频率域的高、低频信息作为补充,并利用一个新颖的多尺度双表示对齐滤波器 (MDAF)**,通过交叉注意力机制智能地对齐和融合空间与频率特征,极大地增强了模型在复杂场景下的分割鲁棒性。总的来说,这两项工作都证明了小波变换在增强深度模型特征表达能力方面的巨大潜力。
另外我整理了小波变换+CNN相关论文合集:
一、论文1:Efficient Multi-scale Network with Learnable Discrete Wavelet Transform for Blind Motion Deblurring
推荐理由
这篇论文为图像去模糊领域,特别是真实世界的运动模糊去除,提供了一个既高效又高性能的解决方案。传统的多尺度 (multi-scale) 去模糊方法通常结构复杂,需要手动构建不同分辨率的图像对,且在融合不同尺度特征时计算开销大。本文巧妙地提出了一个单输入多输出 (Single-Input Multiple-Output, SIMO) 的网络架构,极大地简化了模型。
其核心亮点是引入了**可学习离散小波变换 (Learnable Discrete Wavelet Transform, DWT)**,让网络能够像学习普通卷积核一样,自适应地学习如何最好地分解图像的频率和方向信息。这使得模型在恢复图像边缘和纹理等高频细节方面表现尤为出色,同时对真实模糊轨迹的连续性有更好的理解。对于追求效率与效果平衡的图像修复研究者和开发者来说,这篇论文提供了极具价值的思路和实践方法。
方法
本文提出的网络名为 MLWNet,其核心方法可以分解为以下几个部分:
- SIMO 多尺度基线网络:
-
架构: 采用编码器-解码器 (encoder-decoder) 结构,但与传统方法不同,它只接收原始高分辨率图像作为单一输入。
-
流程: 在解码阶段,网络会逐级向上恢复并输出不同尺度的清晰图像。这种设计避免了传统多尺度方法中复杂的跨尺度特征融合模块,也无需预先生成低分辨率的模糊/清晰图像对。
-
【如图2】 该图清晰地展示了 MLWNet 的整体架构,包括编码器(SEB)、特征融合(WFB)和解码器(WHB)三个阶段的信息流。
-

- 可学习离散小波变换 (Learnable Discrete Wavelet Transform, LWN):
-
动机: 为了弥补多尺度架构在细节恢复上的不足,利用小波变换能同时分析时域和频域信息的优势。相比傅里叶变换,小波变换更擅长处理图像中的突变信号(如边缘)。
-
实现: 作者没有使用固定的小波基(如哈尔小波),而是将小波变换的滤波器设计为可学习的参数。具体来说,通过两个可学习的一维向量
a_0(低通) 和a_1(高通) 的外积来构建四个二维卷积核: 这四个核分别对应低频、水平高频、垂直高频和对角线高频信息。它们被拼接成一个大的卷积核K_w,并通过分组卷积 (group convolution) 的方式高效地作用于输入特征图,将其分解到小波域。 -
【如图3】 该图生动地展示了可学习的二维小波卷积核的构建过程,以及如何通过分组卷积实现特征图到小波域的分解。
-

- 损失函数:
-
多尺度损失 (Multi-scale Loss): 网络的总损失由多个部分的加权和构成。主损失是计算每个输出尺度下的恢复图像与对应清晰图像之间的像素差异(PSNR Loss)。为了平衡不同尺度的重要性,作者对尺度
k的损失赋予了1/k的权重。 -
小波损失 (Wavelet Loss): 为了确保学习到的滤波器真正具备小波变换的性质,而不是退化成普通卷积,作者引入了一个基于完美重构 (perfect reconstruction) 原理的自监督损失。该损失约束了正向和反向小波滤波器的关系,保证了信息的可逆性。
-
创新点
-
高效的 SIMO 多尺度架构: 创新性地提出了单输入、多输出的多尺度去模糊范式,显著降低了现有 coarse-to-fine 方案的算法复杂度和计算成本。
-
用于去模糊的可学习离散小波变换: 首次将可学习的小波变换应用于图像去模糊任务。这使得网络能够根据数据分布自适应地学习最优的特征分解方式,从而更有效地分离和处理与模糊相关的频率和方向信息。
-
基于完美重构的自监督约束: 设计了巧妙的小波损失函数,通过自监督的方式保证了学习到的小波核的数学正确性和有效性,避免了模型退化,确保了细节恢复能力的提升。
-
代码链接: https://github.com/thqiu0419/MLWNet
-
论文链接: https://arxiv.org/abs/2401.00027
二、论文2:SFFNet: A Wavelet-Based Spatial and Frequency Domain Fusion Network for Remote Sensing Segmentation
推荐理由
这篇论文为遥感图像分割这一极具挑战性的任务提供了一个全新的视角。遥感图像通常包含复杂的场景,尤其是在阴影、物体边缘或纹理变化剧烈的区域,仅依赖空间域 (spatial domain) 特征的传统分割网络常常表现不佳。
本文提出的 SFFNet 创新地将频率域 (frequency domain) 信息作为空间特征的有力补充。它设计了一个清晰的双阶段框架,在充分提取空间信息后,利用哈尔小波变换 (Haar wavelet transform) 分解出高频(细节、边缘)和低频(轮廓、结构)特征。更重要的是,为了解决两种不同域特征之间的“语义鸿沟”,论文设计了一个名为多尺度双表示对齐滤波器 (MDAF) 的模块,通过交叉注意力 (cross-attention) 机制,让空间和频率特征智能地对齐、筛选和融合。该方法在标准遥感数据集上取得了优异的性能,为处理具有复杂光照和纹理变化的图像分割问题开辟了新思路。
方法
本文提出的 SFFNet 采用了一个双阶段的融合框架,其核心方法如下:
- 双阶段网络架构:
-
第一阶段 (空间特征提取): 使用强大的卷积网络(如 ConvNeXt)作为骨干网络,对输入图像进行多层次的特征提取,以获得包含丰富语义和空间信息的特征图。
-
第二阶段 (特征映射与融合): 此阶段是网络的核心。它将第一阶段提取的特征并行送入三个分支进行映射,然后进行智能融合。
-
【如图2】 此图是 SFFNet 的主框架图,直观地展示了从第一阶段的空间特征提取到第二阶段的全局、局部和频率域三种特征映射,再到最后通过 MDAF 进行融合的完整流程。
-

-
三大特征映射分支:
-
全局分支 (Global Branch): 为了捕捉大范围的上下文信息,该分支使用了一个改进的 Swin Transformer。特别地,它用更高效的条形卷积 (stripe convolution) 替代了原始的 Shifted Window 操作,以建立窗口间的远程依赖关系,更适应遥感图像中的条状地物(如道路、河流)。
-
局部分支 (Local Branch): 通过并行的多尺度最大池化(Max-Pooling)操作,捕捉不同尺度的局部细节特征。
-
小波变换特征分解器 (Wavelet Transform Feature Decomposer, WTFD): 这是引入频率域信息的关键。该模块利用固定的哈尔小波变换将空间特征分解为四个部分:一个低频分量
A(近似信息) 和三个高频分量H、V、D(水平、垂直、对角线细节)。其中,低频分量被视为低频特征,三个高频分量合并后被视为高频特征。哈尔小波变换的计算如下:
-
-
多尺度双表示对齐滤波器 (MDAF):
-
动机: 空间特征和频率特征描述的是图像的不同属性,存在语义差异,直接相加或拼接效果不佳。MDAF 的目的就是为了解决这个问题。
- 流程:
-
首先,对输入的空间特征和频率特征分别进行多尺度的条形卷积,将它们映射到统一的尺度。
-
然后,进入核心的双表示对齐滤波器 (DAF)。它采用一种双向交叉注意力机制:用频率特征生成的
Query去查询空间特征生成的Key和Value,反之亦然。这使得两种特征能够相互“问询”,选择并融合对彼此最有用的信息。
-
-
其核心的注意力计算公式为:
-
【如图6】 该图详细描绘了 MDAF 的内部结构,清晰地展示了如何通过多尺度映射和双向交叉注意力的 DAF 模块实现空间域与频率域特征的对齐和选择。
-

- 损失函数:
-
采用在分割任务中常用的 Dice Loss 和 交叉熵损失 (Cross-Entropy Loss) 的组合,以同时优化区域重叠度和像素分类的准确性。
-
创新点
-
空间与频率域融合框架: 提出了一个新颖的双阶段分割网络,明确地将频率域信息作为空间信息的补充,而不是替代,从而保留了各自的优势,有效应对遥感图像中的灰度剧变挑战。
-
小波变换特征分解器 (WTFD): 设计了一个专门的模块,利用哈尔小波变换高效地将特征分解为语义不同的高、低频信息,为网络提供了更多维度的判别依据。
-
多尺度双表示对齐滤波器 (MDAF): 这是本文最具创新性的贡献。它通过一个精心设计的双向交叉注意力机制,成功解决了如何有效融合来自不同表示域(空间 vs. 频率)特征的难题,实现了特征的智能对齐与选择。
-
代码链接: https://github.com/yysdck/SFFNet
-
论文链接: https://arxiv.org/abs/2405.01992
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)