NeurIPS | VMamba:基于状态空间模型的视觉骨干网络
一.论文信息
论文标题:VMamba: Visual State Space Model
论文作者:Yue Liu,Yunjie Tian,Yuzhong Zhao,Hongtian Yu,Lingxi Xie,Yaowei Wang,Qixiang Ye,Jianbin Jiao,Yunfan Liu
发表会议 :NeurIPS2024
论文代码:https://github.com/MzeroMiko/VMamba
二.论文主要贡献
(1)提出 VMamba 视觉骨干网络
论文提出 VMamba(Visual Mamba),一种基于 State Space Model (SSM) 的视觉模型,用于视觉表示学习。VMamba 将 SSM 的长序列建模能力引入视觉任务中,使视觉模型能够以 线性复杂度处理图像序列。
(2)提出 2D Selective Scan (SS2D)
为了让 SSM 适用于二维图像数据,作者提出:2D Selective Scan(SS2D)
其核心思想是:
1.将二维图像 patch 转换为多个序列
2.沿多个扫描路径处理
3.再重新组合为二维特征图
论文指出:SS2D 填补了一维扫描方法与面向视觉数据的二维遍历需求之间的技术鸿沟。
(3)在多个视觉任务中取得优秀表现
VMamba 在多个任务中表现优异:
包括:
1.图像分类
2.目标检测
3.语义分割
并且在多个任务上 优于 Swin Transformer 和 ConvNeXt 等主流视觉模型。
三.论文创新点
论文的核心创新主要体现在以下三个方面:
3.1.创新一:提出 SS2D(2D Selective Scan)
传统 SSM 只能处理 1D 序列。
作者提出 SS2D 模块,使其可以处理 2D 图像数据。
SS2D 的主要流程包括:
1 Cross-Scan
2. Selective Scan(S6 block)
3.Cross-Merge
3.2.创新二:四方向扫描(Cross-Scan)
SS2D 的关键在于 四个扫描路径:
左 → 右
上 → 下
右 → 左
下 → 上
这样每个像素可以从多个方向获取信息。
这使模型能够建立 全局感受野(Global Receptive Field)。
3.3创新三:线性复杂度视觉模型
Transformer 的计算复杂度为:
O(N2)O(N^2)O(N2)
而 VMamba 的复杂度为:O(N)O(N)O(N)
论文指出:VMamba 将模型的计算复杂度从二次方量级降低至线性量级。
这使其在处理高分辨率图像时更高效。
四.方法
4.1.SSM的实现
ht=eΔAht−1+ΔBxth_t=e^{\Delta A}h_{t-1}+\Delta Bx_tht=eΔAht−1+ΔBxt
yt=Cht+Dxty_t=Ch_t+Dx_tyt=Cht+Dxt
其中ℎ表示隐藏状态,x 表示输入,y 表示输出
4.2.SS2D的实现
SS2D 的主要流程包括:
1 Cross-Scan
2. Selective Scan(S6 block)
3.Cross-Merge
如图:
该图用可视化方式清晰展示了 SS2D 模块的 “交叉扫描拆二维→S6 并行扫一维→交叉融合回二维” 全流程,核心是证明:VMamba 能在保留 Mamba 线性复杂度的同时,处理二维视觉数据,且不丢失空间信息
4.3.VMamba的设计逻辑

该图详细展示了以 Mamba 块为基础,通过 SS2D 模块实现视觉适配,再通过精简架构和工程优化,最终实现 “高精度 + 高吞吐 + 低算力” 的高效视觉骨干网络。
五.实验分析
分类任务的性能比对
下游任务(目标检测 + 语义分割)的性能对比分析
结论:==VMamba ==不仅在 ImageNet 分类上 “又快又准”,在实际下游任务中同样表现优异,是一个通用、高效、高性能的视觉骨干网络。
VMamba 的适配性验证图以及资源消耗验证图
六.个人声明
本文为作者对原论文的学习笔记与心得分享,受个人学识与理解所限,文中对论文内容的解读或有不够周全之处,一切以原论文正式表述为准。本文仅用于学术交流与传播,内容均由作者独立整理完成,不代表本公众号立场。如文中所涉文字、图片等内容存在版权争议,请及时与作者联系,作者将在第一时间核实并妥善处理。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)