掌握小波变换+CNN，发中科院二区及以上不是问题！

CV实验室

585人浏览 · 2026-03-19 18:39:09

CV实验室 · 2026-03-19 18:39:09 发布

近期的计算机视觉研究越来越关注如何突破传统卷积网络在空间域处理的局限性。本次解析的两篇论文共同探索了将频率域信息，特别是**小波变换 (Wavelet Transform)**，融入深度学习模型以解决不同挑战。

第一篇论文《MLWNet》聚焦于图像去模糊任务，针对现有模型在处理真实运动模糊时的复杂性和细节恢复不足问题，提出了一种高效的单输入多输出 (SIMO) 架构，并首创性地设计了**可学习离散小波变换 (Learnable DWT)**模块。该模块能自适应地学习数据特征，有效捕捉模糊轨迹的方向性和高频细节，在提升去模糊效果的同时，显著提高了计算效率。

第二篇论文《SFFNet》则致力于解决遥感图像分割中的难题，即阴影、边缘等灰度剧变区域的精确分割。它构建了一个创新的双阶段网络，在提取空间特征后，通过**小波变换特征分解器 (WTFD)引入频率域的高、低频信息作为补充，并利用一个新颖的多尺度双表示对齐滤波器 (MDAF)**，通过交叉注意力机制智能地对齐和融合空间与频率特征，极大地增强了模型在复杂场景下的分割鲁棒性。总的来说，这两项工作都证明了小波变换在增强深度模型特征表达能力方面的巨大潜力。

另外我整理了小波变换+CNN相关论文合集：

源文、姿料，这里~

一、论文1：Efficient Multi-scale Network with Learnable Discrete Wavelet Transform for Blind Motion Deblurring

方法

本文提出的网络名为 MLWNet，其核心方法可以分解为以下几个部分：

SIMO 多尺度基线网络:
- 架构: 采用编码器-解码器 (encoder-decoder) 结构，但与传统方法不同，它只接收原始高分辨率图像作为单一输入。
- 流程: 在解码阶段，网络会逐级向上恢复并输出不同尺度的清晰图像。这种设计避免了传统多尺度方法中复杂的跨尺度特征融合模块，也无需预先生成低分辨率的模糊/清晰图像对。
- 【如图2】 该图清晰地展示了 MLWNet 的整体架构，包括编码器（SEB）、特征融合（WFB）和解码器（WHB）三个阶段的信息流。

可学习离散小波变换 (Learnable Discrete Wavelet Transform, LWN):
- 动机: 为了弥补多尺度架构在细节恢复上的不足，利用小波变换能同时分析时域和频域信息的优势。相比傅里叶变换，小波变换更擅长处理图像中的突变信号（如边缘）。
- 实现: 作者没有使用固定的小波基（如哈尔小波），而是将小波变换的滤波器设计为可学习的参数。具体来说，通过两个可学习的一维向量 a_0 (低通) 和 a_1 (高通) 的外积来构建四个二维卷积核：这四个核分别对应低频、水平高频、垂直高频和对角线高频信息。它们被拼接成一个大的卷积核 K_w，并通过分组卷积 (group convolution) 的方式高效地作用于输入特征图，将其分解到小波域。
- 【如图3】 该图生动地展示了可学习的二维小波卷积核的构建过程，以及如何通过分组卷积实现特征图到小波域的分解。

损失函数:
- 多尺度损失 (Multi-scale Loss): 网络的总损失由多个部分的加权和构成。主损失是计算每个输出尺度下的恢复图像与对应清晰图像之间的像素差异（PSNR Loss）。为了平衡不同尺度的重要性，作者对尺度k的损失赋予了1/k的权重。
- 小波损失 (Wavelet Loss): 为了确保学习到的滤波器真正具备小波变换的性质，而不是退化成普通卷积，作者引入了一个基于完美重构 (perfect reconstruction) 原理的自监督损失。该损失约束了正向和反向小波滤波器的关系，保证了信息的可逆性。

创新点

高效的 SIMO 多尺度架构: 创新性地提出了单输入、多输出的多尺度去模糊范式，显著降低了现有 coarse-to-fine 方案的算法复杂度和计算成本。
用于去模糊的可学习离散小波变换: 首次将可学习的小波变换应用于图像去模糊任务。这使得网络能够根据数据分布自适应地学习最优的特征分解方式，从而更有效地分离和处理与模糊相关的频率和方向信息。
基于完美重构的自监督约束: 设计了巧妙的小波损失函数，通过自监督的方式保证了学习到的小波核的数学正确性和有效性，避免了模型退化，确保了细节恢复能力的提升。
代码链接: https://github.com/thqiu0419/MLWNet
论文链接: https://arxiv.org/abs/2401.00027

二、论文2：SFFNet: A Wavelet-Based Spatial and Frequency Domain Fusion Network for Remote Sensing Segmentation

方法

本文提出的 SFFNet 采用了一个双阶段的融合框架，其核心方法如下：

双阶段网络架构:
- 第一阶段 (空间特征提取): 使用强大的卷积网络（如 ConvNeXt）作为骨干网络，对输入图像进行多层次的特征提取，以获得包含丰富语义和空间信息的特征图。
- 第二阶段 (特征映射与融合): 此阶段是网络的核心。它将第一阶段提取的特征并行送入三个分支进行映射，然后进行智能融合。
- 【如图2】 此图是 SFFNet 的主框架图，直观地展示了从第一阶段的空间特征提取到第二阶段的全局、局部和频率域三种特征映射，再到最后通过 MDAF 进行融合的完整流程。

三大特征映射分支:
- 全局分支 (Global Branch): 为了捕捉大范围的上下文信息，该分支使用了一个改进的 Swin Transformer。特别地，它用更高效的条形卷积 (stripe convolution) 替代了原始的 Shifted Window 操作，以建立窗口间的远程依赖关系，更适应遥感图像中的条状地物（如道路、河流）。
- 局部分支 (Local Branch): 通过并行的多尺度最大池化（Max-Pooling）操作，捕捉不同尺度的局部细节特征。
- 小波变换特征分解器 (Wavelet Transform Feature Decomposer, WTFD): 这是引入频率域信息的关键。该模块利用固定的哈尔小波变换将空间特征分解为四个部分：一个低频分量 A (近似信息) 和三个高频分量 H、V、D (水平、垂直、对角线细节)。其中，低频分量被视为低频特征，三个高频分量合并后被视为高频特征。哈尔小波变换的计算如下：
多尺度双表示对齐滤波器 (MDAF):
- 动机: 空间特征和频率特征描述的是图像的不同属性，存在语义差异，直接相加或拼接效果不佳。MDAF 的目的就是为了解决这个问题。
- 流程:
  1. 首先，对输入的空间特征和频率特征分别进行多尺度的条形卷积，将它们映射到统一的尺度。
  2. 然后，进入核心的双表示对齐滤波器 (DAF)。它采用一种双向交叉注意力机制：用频率特征生成的 Query 去查询空间特征生成的 Key 和 Value，反之亦然。这使得两种特征能够相互“问询”，选择并融合对彼此最有用的信息。
- 其核心的注意力计算公式为：
- 【如图6】 该图详细描绘了 MDAF 的内部结构，清晰地展示了如何通过多尺度映射和双向交叉注意力的 DAF 模块实现空间域与频率域特征的对齐和选择。

损失函数:
- 采用在分割任务中常用的 Dice Loss 和 交叉熵损失 (Cross-Entropy Loss) 的组合，以同时优化区域重叠度和像素分类的准确性。

创新点

空间与频率域融合框架: 提出了一个新颖的双阶段分割网络，明确地将频率域信息作为空间信息的补充，而不是替代，从而保留了各自的优势，有效应对遥感图像中的灰度剧变挑战。
小波变换特征分解器 (WTFD): 设计了一个专门的模块，利用哈尔小波变换高效地将特征分解为语义不同的高、低频信息，为网络提供了更多维度的判别依据。
多尺度双表示对齐滤波器 (MDAF): 这是本文最具创新性的贡献。它通过一个精心设计的双向交叉注意力机制，成功解决了如何有效融合来自不同表示域（空间 vs. 频率）特征的难题，实现了特征的智能对齐与选择。
代码链接: https://github.com/yysdck/SFFNet
论文链接: https://arxiv.org/abs/2405.01992

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

从0到1：企业级AI项目迭代日记 Vol.43｜你在演示企业AI，客户在算使用成本

AtomGit开源社区

月之暗面 Kimi Code 0.4.0 发布，终端 AI 编码助手全面采用 TypeScript，实现毫秒级启动

月之暗面前几天正式发布了终端 AI 编程 Agent 的最新版本的 Kimi Code 0.4.0。这次更新不仅仅是常规的功能修补，而是完成了从 Python 到 TypeScript 的全面技术栈迁移。新版本在启动速度、插件管理、权限控制以及终端交互体验上都进行了深度的工程化重构。

AtomGit开源社区

AI笔记005. hermes-DeepSeek V4 Pro, 128K上下文引发的探索

单针考"视力"，多针考"记忆力 + 分辨力"。1M 窗口是"能看多远"，250K 是"能记多清"。你的 17K 使用量连安全区的门槛都没摸到，放心用。***User:***按这个数据：Gemini 3 Deep Think 能力最强，但编程场景仍然是claudecode最强，我觉得不太对，因为编程场景要的就是精准，所以编程场景也应该是Gemini 3 Deep Think 最强长上下文"检索精度"