SegMAN：当 Mamba 遇上局部注意力，语义分割全尺度建模新 SOTA！

2501_94342146

366人浏览 · 2026-03-25 14:00:14

2501_94342146 · 2026-03-25 14:00:14 发布

论文介绍

SegMAN: Omni-scale Context Modeling with State Space Models and Local Attention for Semantic Segmentation

https://ieeexplore.ieee.org/document/11093633

https://github.com/yunxiangfu2001/SegMAN

核心思想

本文提出了 SegMAN，一个线性时间复杂度的语义分割模型，旨在同时解决高效全局建模、高质量局部细节保留和多尺度特征提取三大难题。其核心创新在于编码器引入了 LASS（Local Attention and State Space）模块，巧妙结合了用于局部细节的滑动窗口注意力（Natten）和用于全局建模的动态状态空间模型（VMamba/SS2D）。同时，解码器设计了 MMSCopE 模块，利用Mamba机制在单次扫描中自适应地处理多尺度特征。实验表明，SegMAN在ADE20K、Cityscapes和COCO-Stuff上均取得了新的SOTA性能，且计算效率优于SegFormer和SegNeXt等主流模型。

背景与动机

3.1 文本背景与痛点

高质量的语义分割依赖于三个关键能力：

1.全局上下文（Global Context）：理解整个场景布局。

2.局部细节（Local Detail）：精确勾勒物体边界。

3.多尺度特征（Multi-scale Feature）：应对物体大小的变化。

然而，现有方法往往顾此失彼：

Transformer类（如VWFormer）：虽然引入了窗口注意力，但在高分辨率下，预定义的窗口尺寸限制了全局感受野，且计算量随分辨率二次增长。
线性Attention类（如EDAFormer）：为了效率牺牲了空间分辨率（如使用空间缩减注意力SRA），导致细粒度细节丢失。
纯CNN或Mamba类：往往在动态多尺度交互上有所欠缺。

本文动机：能否设计一个网络，既拥有Mamba的线性全局建模能力，又具备局部注意力的细节捕捉能力，还能在解码阶段自适应地融合多尺度信息？

3.2 动机图解分析

看图说话（动机分析）：

左图（感受野对比）：
VWFormer/EDAFormer：可以看到它们的有效感受野（ERF）主要集中在中心区域，且覆盖范围有限（绿色区域较小），这意味着它们在高分辨率图像上难以捕捉长距离依赖。
SegMAN（最下方）：展示了覆盖全图的强响应（深绿色区域广泛），证明了其

全局上下文建模能力远超对比方法。

右图（分割细节对比）：
黄色路牌案例：请注意放大图中的黄色路牌。SegFormer和VWFormer的分割结果边缘模糊，甚至丢失了路牌的主体。
SegMAN结果：SegMAN不仅完整分割出了路牌，而且边界非常清晰。这直接证明了引入局部注意力（Natten）对于保留细粒度细节的关键作用。

主要创新点

1.LASS Token Mixer：在编码器中首创性地串联了Neighborhood Attention（Natten）和2D-Selective-Scan（SS2D），实现了局部与全局特征的互补建模。

2.MMSCopE 解码器模块：提出基于Mamba的多尺度上下文提取模块，通过创新的“拼接-扫描”策略，在单次SS2D扫描中同时处理多层级特征。

3.全尺度自适应建模：解决了固定窗口注意力在变分辨率输入下的局限性，实现了随输入分辨率自适应的全局感受野。

4.无损多尺度融合：在解码器中使用Pixel Unshuffle代替池化操作，避免了下采样过程中的细节信息丢失。

方法细节

5.1 整体网络架构

数据流详解：

输入 (Input)：输入图像经过重叠块嵌入（Overlapping Patch Embedding）进入网络。
编码器路径 (Encoder - Fig 3a)：
标准的四阶段金字塔结构。
每个阶段包含 Downsample 层和若干个 LASS Block。
输出四个阶段的特征图，分辨率依次降低（1/4, 1/8, 1/16, 1/32）。
解码器路径 (Decoder - Fig 3c)：
特征聚合：将统一调整到的分辨率（1/8）并拼接，得到聚合特征。
核心变换：特征输入到 MMSCopE模块，提取多尺度上下文，得到增强特征。最终预测：将增强特征与原始各阶段特征再次融合，通过MLP预测分割图。

5.2 核心创新模块详解

模块 A：LASS (Local Attention and State Space) 模块

设计目的：解决单一机制无法同时兼顾效率、全局信息和局部细节的问题。
内部结构拆解：

1.Natten (Neighborhood Attention)：

作用：负责局部细节编码。

机制：滑动窗口注意力。每个像素只关注其邻域内的像素，保持了平移等变性，且能够精细捕捉边界信息。

2.SS2D (2D Selective Scan / Mamba)：

作用：负责全局上下文建模。

机制：利用Mamba的线性复杂度特性，对特征图进行四个方向的扫描。这弥补了Natten感受野受限的缺陷。

3.残差连接与融合：

为了防止信息流失，SS2D 旁增加了一个残差连接（通常包含卷积）。

两者串联（或并联，文中最终选择串联结构更优），使得输出特征同时具备“见树木（局部）”和“见森林（全局）”的能力。

模块 B：MMSCopE (Mamba-based Multi-Scale Context Extraction)

设计理念：传统的多尺度融合（如ASPP）计算量大或容易丢失细节。作者希望利用Mamba的长序列处理能力，一次性处理多个尺度的特征。
工作机制详解：

1.多尺度生成：输入特征 (1/8尺度)，通过不同步长的卷积生成 (1/16尺度) 和 (1/32尺度)。

2.Pixel Unshuffle (关键步骤)：

为了将不同分辨率的特征图塞进同一个Mamba序列，作者没有使用暴力下采样，而是使用了 Pixel Unshuffle。
它将空间维度（H, W）折叠到通道维度（C）。例如，1/8图和1/16图经过变换后，空间分辨率对齐到1/32，但通道数增加了。
目的：无损地保留了所有尺度的空间信息。

3.单次扫描 (Single Scan)：

将对齐后的三个特征图在通道维度拼接。
输入进 SS2D 模块。由于Mamba是线性复杂度的，这种“胖”通道输入的计算开销是可控的。
SS2D 实现了跨尺度的信息交互。

4.恢复与融合：通过 Pixel Shuffle 恢复空间分辨率，最终输出融合了多尺度上下文的特征。

5.3 理念与机制总结

SegMAN 的成功在于它拒绝妥协：

它没有为了效率放弃全局信息（使用了Mamba）。
它没有为了全局信息放弃局部精度（使用了Natten）。
它没有为了多尺度融合引入复杂的金字塔结构，而是利用Mamba的特性，将“多尺度问题”转化为了“通道混合问题”，通过 MMSCopE 实现了极其优雅且高效的解法。

即插即用模块的作用与应用场景

本文提出的模块具有极高的通用性，可应用于以下场景：

1.LASS Block (Encoder Layer)：

适用场景：任何视觉Backbone设计，特别是需要处理高分辨率输入的任务（如目标检测、分割）。
应用：可以替换 Swin Transformer Block 或 ConvNeXt Block。相比Swin，它有更好的全局感知；相比ConvNeXt，它有动态权重调节能力。

2.MMSCopE (Decoder Module)：

适用场景：语义分割、全景分割的解码头（Decoder Head）。
应用：可以替换 UPerNet、SegFormer Head 或 SegNeXt 的 HamDecoder。特别适合需要以低计算成本提升多尺度感知能力的场景。

3.SegMAN Encoder (Backbone)：

应用：论文在补充实验中证明（Table 13），将该Encoder放入 Mask DINO

框架，在实例分割和全景分割任务上同样超越了ResNet和MiT骨干，证明了其强大的特征提取泛化能力。

实验部分简单分析

SOTA 性能：

ADE20K：SegMAN-B 达到了 52.6% mIoU，比同量级的 SegNeXt-L 高出 1.6%，且 GFLOPs 减少了 15%。
Cityscapes：在 1024x2048 的高分辨率输入下，SegMAN展现出巨大优势（得益于线性复杂度），SegMAN-B 达到 83.8% mIoU。

效率分析 (Table 4)：在推理速度（FPS）上，SegMAN-T 达到了 34.9 FPS，远超 EDAFormer-T (12.7 FPS) 和 VWFormer-B0 (21.1 FPS)，证明了 Mamba 架构在实际部署中的优势。

消融实验 (Table 5)：实验证明，单独移除 SS2D 或 Natten 都会导致性能显著下降（mIoU 下降 0.7%~1.8%），验证了“全局+局部”混合设计的必要性。

总结：SegMAN 是一篇典型的“架构设计”类佳作。它敏锐地捕捉到了 Mamba 在视觉任务中的潜力，并理性地补充了 Mamba 缺失的归纳偏置（局部性），最终在分割任务上交出了一份接近完美的答卷。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

（论文速读）Shift：通过减少概念漂移解决时间序列预测泛化问题

AtomGit开源社区

深度应用篇：AI 驱动的垂直行业重塑——从概念到产业变革的路径图

摘要：本文探讨AI Agent在金融、医疗和制造业三大高复杂度行业的深度应用。在金融领域，通过高级RAG和知识图谱技术，AI将尽职调查周期从数月缩短至数小时，实现可审计的决策支持。医疗健康方面，多模态AI系统整合病历、基因等数据，构建诊断可能性排序模型，提升诊断准确率。制造业中，视觉-语义融合技术将质检从缺陷检测升级为工艺根源分析，实现预测性维护。这些案例表明，AI的核心价值在于突破行业瓶颈，重