【无标题】
01
论文介绍
- SegMAN: Omni-scale Context Modeling with State Space Models and Local Attention for Semantic Segmentation
https://ieeexplore.ieee.org/document/11093633
https://github.com/yunxiangfu2001/SegMAN

02
核心思想
本文提出了 SegMAN,一个线性时间复杂度的语义分割模型,旨在同时解决高效全局建模、高质量局部细节保留和多尺度特征提取三大难题。其核心创新在于编码器引入了 LASS(Local Attention and State Space) 模块,巧妙结合了用于局部细节的滑动窗口注意力(Natten)和用于全局建模的动态状态空间模型(VMamba/SS2D)。同时,解码器设计了 MMSCopE 模块,利用Mamba机制在单次扫描中自适应地处理多尺度特征。实验表明,SegMAN在ADE20K、Cityscapes和COCO-Stuff上均取得了新的SOTA性能,且计算效率优于SegFormer和SegNeXt等主流模型。
03
背景与动机
3.1 文本背景与痛点
高质量的语义分割依赖于三个关键能力:
1.全局上下文(Global Context):理解整个场景布局。
2.局部细节(Local Detail):精确勾勒物体边界。
3.多尺度特征(Multi-scale Feature):应对物体大小的变化。
然而,现有方法往往顾此失彼:
- Transformer类(如VWFormer):虽然引入了窗口注意力,但在高分辨率下,预定义的窗口尺寸限制了全局感受野,且计算量随分辨率二次增长。
- 线性Attention类(如EDAFormer):为了效率牺牲了空间分辨率(如使用空间缩减注意力SRA),导致细粒度细节丢失。
- 纯CNN或Mamba类:往往在动态多尺度交互上有所欠缺。
本文动机:能否设计一个网络,既拥有Mamba的线性全局建模能力,又具备局部注意力的细节捕捉能力,还能在解码阶段自适应地融合多尺度信息?
3.2 动机图解分析
看图说话(动机分析):

- 左图(感受野对比):
- VWFormer/EDAFormer:可以看到它们的有效感受野(ERF)主要集中在中心区域,且覆盖范围有限(绿色区域较小),这意味着它们在高分辨率图像上难以捕捉长距离依赖。
- SegMAN(最下方):展示了覆盖全图的强响应(深绿色区域广泛),证明了其
全局上下文建模能力远超对比方法。
- 右图(分割细节对比):
- 黄色路牌案例:请注意放大图中的黄色路牌。SegFormer和VWFormer的分割结果边缘模糊,甚至丢失了路牌的主体。
- SegMAN结果:SegMAN不仅完整分割出了路牌,而且边界非常清晰。这直接证明了引入局部注意力(Natten)对于保留细粒度细节的关键作用。
04
主要创新点
1.LASS Token Mixer:在编码器中首创性地串联了Neighborhood Attention(Natten)和2D-Selective-Scan(SS2D),实现了局部与全局特征的互补建模。
2.MMSCopE 解码器模块:提出基于Mamba的多尺度上下文提取模块,通过创新的“拼接-扫描”策略,在单次SS2D扫描中同时处理多层级特征。
3.全尺度自适应建模:解决了固定窗口注意力在变分辨率输入下的局限性,实现了随输入分辨率自适应的全局感受野。
4.无损多尺度融合:在解码器中使用Pixel Unshuffle代替池化操作,避免了下采样过程中的细节信息丢失。
05
方法细节
5.1 整体网络架构

数据流详解:
- 输入 (Input):输入图像经过重叠块嵌入(Overlapping Patch Embedding)进入网络。
- 编码器路径 (Encoder - Fig 3a):
标准的四阶段金字塔结构。
每个阶段包含 Downsample 层和若干个 LASS Block。
输出四个阶段的特征图 ,分辨率依次降低(1/4, 1/8, 1/16, 1/32)。 - 解码器路径 (Decoder - Fig 3c):
特征聚合:将 统一调整到 的分辨率(1/8)并拼接,得到聚合特征 。
核心变换:特征 输入到 MMSCopE模块,提取多尺度上下文,得到增强特征 。最终预测:将增强特征与原始各阶段特征再次融合,通过MLP预测分割图。
5.2 核心创新模块详解
模块 A:LASS (Local Attention and State Space) 模块
- 设计目的:解决单一机制无法同时兼顾效率、全局信息和局部细节的问题。
- 内部结构拆解:
1.Natten (Neighborhood Attention):
作用:负责局部细节编码。
机制:滑动窗口注意力。每个像素只关注其邻域内的像素,保持了平移等变性,且能够精细捕捉边界信息。
2.SS2D (2D Selective Scan / Mamba):
作用:负责全局上下文建模。
机制:利用Mamba的线性复杂度特性,对特征图进行四个方向的扫描。这弥补了Natten感受野受限的缺陷。
3.残差连接与融合:
为了防止信息流失,SS2D 旁增加了一个残差连接(通常包含卷积)。
两者串联(或并联,文中最终选择串联结构更优),使得输出特征同时具备“见树木(局部)”和“见森林(全局)”的能力。
模块 B:MMSCopE (Mamba-based Multi-Scale Context Extraction)
- 设计理念:传统的多尺度融合(如ASPP)计算量大或容易丢失细节。作者希望利用Mamba的长序列处理能力,一次性处理多个尺度的特征。
- 工作机制详解:
1.多尺度生成:输入特征 (1/8尺度),通过不同步长的卷积生成 (1/16尺度) 和 (1/32尺度)。
2.Pixel Unshuffle (关键步骤):
- 为了将不同分辨率的特征图塞进同一个Mamba序列,作者没有使用暴力下采样,而是使用了 Pixel Unshuffle。
- 它将空间维度(H, W)折叠到通道维度(C)。例如,1/8图和1/16图经过变换后,空间分辨率对齐到1/32,但通道数增加了。
- 目的:无损地保留了所有尺度的空间信息。
3.单次扫描 (Single Scan):
- 将对齐后的三个特征图在通道维度拼接。
- 输入进 SS2D 模块。由于Mamba是线性复杂度的,这种“胖”通道输入的计算开销是可控的。
- SS2D 实现了跨尺度的信息交互。
4.恢复与融合:通过 Pixel Shuffle 恢复空间分辨率,最终输出融合了多尺度上下文的特征 。
5.3 理念与机制总结
SegMAN 的成功在于它拒绝妥协:
- 它没有为了效率放弃全局信息(使用了Mamba)。
- 它没有为了全局信息放弃局部精度(使用了Natten)。
- 它没有为了多尺度融合引入复杂的金字塔结构,而是利用Mamba的特性,将“多尺度问题”转化为了“通道混合问题”,通过 MMSCopE 实现了极其优雅且高效的解法。
06
即插即用模块的作用与应用场景
本文提出的模块具有极高的通用性,可应用于以下场景:
1.LASS Block (Encoder Layer):
- 适用场景:任何视觉Backbone设计,特别是需要处理高分辨率输入的任务(如目标检测、分割)。
- 应用:可以替换 Swin Transformer Block 或 ConvNeXt Block。相比Swin,它有更好的全局感知;相比ConvNeXt,它有动态权重调节能力。
2.MMSCopE (Decoder Module):
- 适用场景:语义分割、全景分割的解码头(Decoder Head)。
- 应用:可以替换 UPerNet、SegFormer Head 或 SegNeXt 的 HamDecoder。特别适合需要以低计算成本提升多尺度感知能力的场景。
3.SegMAN Encoder (Backbone):
- 应用:论文在补充实验中证明(Table 13),将该Encoder放入 Mask DINO
框架,在实例分割和全景分割任务上同样超越了ResNet和MiT骨干,证明了其强大的特征提取泛化能力。
07
实验部分简单分析

SOTA 性能:
- ADE20K:SegMAN-B 达到了 52.6% mIoU,比同量级的 SegNeXt-L 高出 1.6%,且 GFLOPs 减少了 15%。
- Cityscapes:在 1024x2048 的高分辨率输入下,SegMAN展现出巨大优势(得益于线性复杂度),SegMAN-B 达到 83.8% mIoU。
效率分析 (Table 4):在推理速度(FPS)上,SegMAN-T 达到了 34.9 FPS,远超 EDAFormer-T (12.7 FPS) 和 VWFormer-B0 (21.1 FPS),证明了 Mamba 架构在实际部署中的优势。
消融实验 (Table 5):实验证明,单独移除 SS2D 或 Natten 都会导致性能显著下降(mIoU 下降 0.7%~1.8%),验证了“全局+局部”混合设计的必要性。
总结:SegMAN 是一篇典型的“架构设计”类佳作。它敏锐地捕捉到了 Mamba 在视觉任务中的潜力,并理性地补充了 Mamba 缺失的归纳偏置(局部性),最终在分割任务上交出了一份接近完美的答卷。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)