NeurIPS | VMamba：基于状态空间模型的视觉骨干网络

༺ۣۖ陈ۣۖ༒ۣۣۖ⁵²⁰༻501

439人浏览 · 2026-03-15 10:48:00

༺ۣۖ陈ۣۖ༒ۣۣۖ⁵²⁰༻501 · 2026-03-15 10:48:00 发布

一.论文信息

论文标题:VMamba: Visual State Space Model
论文作者：Yue Liu，Yunjie Tian，Yuzhong Zhao，Hongtian Yu，Lingxi Xie，Yaowei Wang，Qixiang Ye，Jianbin Jiao，Yunfan Liu
发表会议：NeurIPS2024
论文代码：https://github.com/MzeroMiko/VMamba

二.论文主要贡献

（1）提出 VMamba 视觉骨干网络
论文提出 VMamba（Visual Mamba），一种基于 State Space Model (SSM) 的视觉模型，用于视觉表示学习。VMamba 将 SSM 的长序列建模能力引入视觉任务中，使视觉模型能够以线性复杂度处理图像序列。
（2）提出 2D Selective Scan (SS2D)
为了让 SSM 适用于二维图像数据，作者提出：2D Selective Scan（SS2D）
其核心思想是：
1.将二维图像 patch 转换为多个序列
2.沿多个扫描路径处理
3.再重新组合为二维特征图
论文指出：SS2D 填补了一维扫描方法与面向视觉数据的二维遍历需求之间的技术鸿沟。
（3）在多个视觉任务中取得优秀表现
VMamba 在多个任务中表现优异：
包括：
1.图像分类
2.目标检测
3.语义分割
并且在多个任务上优于 Swin Transformer 和 ConvNeXt 等主流视觉模型。

三.论文创新点

论文的核心创新主要体现在以下三个方面：

3.1.创新一：提出 SS2D（2D Selective Scan）

传统 SSM 只能处理 1D 序列。

作者提出 SS2D 模块，使其可以处理 2D 图像数据。

SS2D 的主要流程包括：

1 Cross-Scan
2. Selective Scan（S6 block）
3.Cross-Merge

3.2.创新二：四方向扫描（Cross-Scan）

SS2D 的关键在于四个扫描路径：

左 → 右

上 → 下

右 → 左

下 → 上

这样每个像素可以从多个方向获取信息。

这使模型能够建立全局感受野（Global Receptive Field）。

3.3创新三：线性复杂度视觉模型

Transformer 的计算复杂度为：
$O(N^2)$
而 VMamba 的复杂度为： $O (N)$

论文指出：VMamba 将模型的计算复杂度从二次方量级降低至线性量级。

这使其在处理高分辨率图像时更高效。
在这里插入图片描述

四.方法

4.1.SSM的实现

$ht=eΔAht−1+ΔBxth_t=e^{\Delta A}h_{t-1}+\Delta Bx_t$
$y_t=Ch_t+Dx_t$
其中ℎ表示隐藏状态，x 表示输入，y 表示输出

4.2.SS2D的实现

SS2D 的主要流程包括：
1 Cross-Scan
2. Selective Scan（S6 block）
3.Cross-Merge
如图：在这里插入图片描述
该图用可视化方式清晰展示了 SS2D 模块的 “交叉扫描拆二维→S6 并行扫一维→交叉融合回二维” 全流程，核心是证明：VMamba 能在保留 Mamba 线性复杂度的同时，处理二维视觉数据，且不丢失空间信息

4.3.VMamba的设计逻辑

在这里插入图片描述
该图详细展示了以 Mamba 块为基础，通过 SS2D 模块实现视觉适配，再通过精简架构和工程优化，最终实现 “高精度 + 高吞吐 + 低算力” 的高效视觉骨干网络。

五.实验分析

分类任务的性能比对
在这里插入图片描述
下游任务（目标检测 + 语义分割）的性能对比分析

结论：==VMamba ==不仅在 ImageNet 分类上 “又快又准”，在实际下游任务中同样表现优异，是一个通用、高效、高性能的视觉骨干网络。

VMamba 的适配性验证图以及资源消耗验证图
在这里插入图片描述

六.个人声明

本文为作者对原论文的学习笔记与心得分享，受个人学识与理解所限，文中对论文内容的解读或有不够周全之处，一切以原论文正式表述为准。本文仅用于学术交流与传播，内容均由作者独立整理完成，不代表本公众号立场。如文中所涉文字、图片等内容存在版权争议，请及时与作者联系，作者将在第一时间核实并妥善处理。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

OpenHuman 智能体落地应用与价值实现指南

AtomGit开源社区

基于遗传算法的配电网故障重构研究【IEEE33节点】（Matlab代码实现）

配电网故障重构是保障供电可靠性的关键技术，其核心是通过调整开关状态实现故障隔离与非故障区域供电恢复。针对传统方法易陷入局部最优、难以处理多约束等问题，本文以IEEE33节点系统为研究对象，提出基于遗传算法的故障重构模型。该模型通过二进制编码映射开关状态，采用多目标加权适应度函数（最小化停电负荷与网损），结合辐射状拓扑校验与潮流约束，实现全局优化求解。仿真结果表明，在单故障与多故障场景下，该算法较传

AtomGit开源社区

【负荷预测】基于LSTM-KAN的负荷预测研究（Python代码实现）

LSTM-KAN模型结合了LSTM和注意力机制的特点。LSTM是一种特殊的循环神经网络（RNN），通过引入记忆单元和门控机制（遗忘门、输入门、输出门），有效解决了传统RNN在处理长序列数据时存在的梯度消失或梯度爆炸问题，能够捕捉时间序列数据中的长期依赖关系。而注意力机制则能够模拟人类在处理信息时的注意力分配过程，通过为不同时间步的输入数据分配不同的权重，突出重要信息对预测结果的影响。