CVPR 2025 | MambaVision：一种 Mamba-Transformer 混合视觉骨干网络

AlanT_95

406人浏览 · 2026-04-10 19:57:39

AlanT_95 · 2026-04-10 19:57:39 发布

在这里插入图片描述

文章目录

一、论文信息
二、论文主要贡献
三、论文创新点
四、方法
五、实验分析
六、个人声明

一、论文信息

论文题目：MambaVision: A Hybrid Mamba-Transformer Vision Backbone
论文作者：Ali Hatamizadeh, Jan Kautz
发表单位：NVIDIA
发表会议\期刊：CVPR 2025
代码链接：https://github.com/NVlabs/MambaVision

二、论文主要贡献

重新设计了适配视觉任务的 Mamba 模块，相比原始 Mamba 架构，同时提升了视觉任务的精度与图像推理吞吐量。
系统性地研究了 Mamba 与 Transformer 模块的融合范式，证实了在网络最终阶段引入自注意力模块，能够显著提升模型捕捉全局上下文与长距离空间依赖关系的能力。
提出了全新的 Mamba-Transformer 混合模型 MambaVision，该分层架构在 ImageNet-1K 数据集上，实现了 Top-1 准确率与推理吞吐量的全新 SOTA 帕累托前沿。

三、论文创新点

3.1 Mamba 基础原理

在 Mamba 中，一维连续输入 $\in \mathbb{R}$ 通过可学习的隐藏状态 $\in \mathbb{R}^{M}$ ，被转换为输出 $\in \mathbb{R}$ ，对应的参数为 $\in \mathbb{R}^{M \times M}$ 、 $\in \mathbb{R}^{M \times 1}$ 与 $\in \mathbb{R}^{1 \times M}$ ，计算公式如下：

$\begin{aligned} h'(t) &= A h(t) + B x(t), \\ y(t) &= C h(t), \end{aligned}$

离散化

为了进一步提升计算效率，我们将上述公式中的连续参数 $A, B, C$ 转换为离散参数。具体而言，给定时间尺度 $\Delta$ ，可通过零阶保持准则，得到离散参数 $\bar{A} \in \mathbb{R}^{M \times M}$ 、 $\overline{B} \in \mathbb{R}^{M \times 1}$ 与 $\bar{C} \in \mathbb{R}^{1 \times M}$ ，转换公式如下：

$\begin{aligned} \overline{A} &= \exp(\Delta A), \\ \overline{B} &= (\Delta A)^{-1}(\exp(\Delta A) - I) \cdot (\Delta B), \\ \overline{C} &= C, \end{aligned}$

此时，上述连续状态方程可通过离散参数表示为：

$\begin{aligned} h(t) &= \overline{A} h(t-1) + \overline{B} x(t), \\ y(t) &= \overline{C} h(t), \end{aligned}$

此外，对于长度为 $T$ 的输入序列，可通过核为 $\bar{K}$ 的全局卷积，计算上述公式的输出，具体如下：

$\begin{aligned} \overline{K} &= (C \overline{B}, C \overline{A B}, \dots, C \overline{A}^{T-1} \overline{B}), \\ y &= x * \overline{K}, \end{aligned}$

选择性机制

Mamba 在 S4 范式的基础上进一步扩展，引入了选择性机制，实现了依赖于输入的序列处理。该机制允许模型根据输入动态调整参数 $B, C$ 与 $\Delta$ ，过滤掉无关信息。

3.2 层架构设计

给定输入 $\in \mathbb{R}^{T \times C}$ ，其中 $T$ 为序列长度， $C$ 为嵌入维度，第 3、第 4 阶段中第 $n$ 层的输出可通过以下公式计算：

$\begin{aligned} \hat{X}^{n} &= \text{Mixer}\left(\text{Norm}\left(X^{n-1}\right)\right) + X^{n-1}, \\ X^{n} &= \text{MLP}\left(\text{Norm}\left(\hat{X}^{n}\right)\right) + \hat{X}^{n}, \end{aligned}$

其中， $\text{Norm}$ 与 $\text{Mixer}$ 分别代表层归一化与令牌混合模块。在无特殊说明的情况下， $\text{Norm}$ 均采用层归一化实现。

若某阶段共设置 $N$ 层网络，前 $\frac{N}{2}$ 层将采用 **MambaVision 混合器（MambaVision Mixer）模块，剩余 $\frac{N}{2}$ 层则采用自注意力（Self-Attention）**模块。下文将详细介绍各混合器模块的设计细节。

MambaVision 混合器

在这里插入图片描述
如图 3 所示，我们对原始 Mamba 混合器进行了重新设计，使其更适配视觉任务：

替换因果卷积：用常规卷积替换原始的因果卷积——因果卷积会将特征的影响限制在单一方向，这对于视觉任务而言不仅没有必要，还会带来很强的约束限制。
新增对称分支：新增一条不含 SSM 的对称分支，该分支由额外的卷积层与 S 型线性单元（SiLU）激活函数构成，用于弥补 SSM 序列约束导致的内容信息丢失。
拼接融合：将两个分支的输出拼接，并通过最终的线性层完成投影，保证最终的特征表征能够同时融合序列信息与空间信息。

为了保证参数量与原始模块设计相当，每个分支的输出都会被投影至维度为 $\frac{C}{2}$ 的嵌入空间（即原始嵌入维度的一半）。给定输入 $X_{\text{in}}$ ，MambaVision 混合器的输出 $X_{\text{out}}$ 计算公式如下：

$\begin{aligned} X_{1} &= \text{Scan}\left(\sigma\left(\text{Conv}\left(\text{Linear}\left(C, \frac{C}{2}\right)\left(X_{\text{in}}\right)\right)\right)\right), \\ X_{2} &= \sigma\left(\text{Conv}\left(\text{Linear}\left(C, \frac{C}{2}\right)\left(X_{\text{in}}\right)\right)\right), \\ X_{\text{out}} &= \text{Linear}\left(\frac{C}{2}, C\right)\left(\text{Concat}\left(X_{1}, X_{2}\right)\right), \end{aligned}$

其中， $\text{Linear}(C_{\text{in}}, C_{\text{out}})(\cdot)$ 代表输入维度为 $C_{\text{in}}$ 、输出维度为 $C_{\text{out}}$ 的线性层， $\text{Scan}$ 为选择性扫描操作， $\sigma$ 为 SiLU 激活函数， $\text{Conv}$ 与 $\text{Concat}$ 分别代表一维卷积与拼接操作。

该模块是MambaVision对原始Mamba模块做视觉任务适配的核心改造，采用 SSM长距离序列建模分支 + 纯卷积局部空间建模分支的并行双路对称设计，核心创新点有两个：

把原始Mamba的因果卷积替换为普通非因果卷积，适配视觉特征的双向空间关联特性；
新增一条无SSM的纯卷积分支，弥补序列建模丢失的局部视觉细节，最终通过双分支融合，同时兼顾全局长距离依赖与局部空间特征，完美适配计算机视觉任务。

逐模块数据流拆解（自下而上，从输入到输出）

1. 输入与分支拆分
最底部的箭头为模块的输入特征 $X_{\text{in}}$ （来自上一层的输出，维度为 $\times C$ ， $T$ 为token序列长度， $C$ 为特征通道数）。

输入特征进入模块后，被等维度拆分为两路，分别送入左右两个并行分支；两个分支底部的Linear层会分别将输入投影到 $\frac{C}{2}$ 通道维度，保证双分支总参数量和原始Mamba单分支相当，无额外计算开销。

2. 左分支：SSM序列建模主分支（对应公式的 $X_1$ ）
该分支是改造后的Mamba核心分支，负责长距离全局语义依赖建模，数据流自下而上依次为：
（1） Linear线性层：对输入特征做通道投影，将维度映射到 $\frac{C}{2}$ ，完成特征的初步线性变换；
（2）Conv1D一维卷积层：论文的核心改造之一——用普通非因果一维卷积，替换了原始Mamba的因果卷积。原始Mamba的因果卷积只能单向建模序列，不符合视觉特征的空间双向关联性，普通卷积可双向捕捉上下文信息，更适配图像任务；
（3） $\sigma$ 激活层：即SiLU（S型线性单元）激活函数，对卷积后的特征做非线性变换，增强模型的特征表达能力；
（4）SSM状态空间模型层：即Mamba的核心选择性状态空间模型，内部执行选择性扫描（Scan）操作，以线性复杂度对一维token序列做长距离依赖建模，捕捉视觉token之间的全局语义关联，是Mamba高效建模的核心单元；
（5）分支输出送入后续的拼接融合节点。

3. 右分支：新增对称空间建模分支（对应公式的 $X_2$ ，论文核心创新）
该分支是论文为视觉任务新增的纯卷积分支，无SSM序列建模，专门负责保留局部空间细节，弥补SSM分支的视觉信息丢失，数据流自下而上依次为：
（1）Linear线性层：和左分支完全对称，同样将输入特征投影到 $\frac{C}{2}$ 通道维度，和左分支保持参数量平衡；
（2）Conv1D一维卷积层：和左分支同配置的一维卷积，专门提取输入特征的局部空间细节，不经过序列建模处理，完整保留原始的视觉空间信息；
（3） $\sigma$ 激活层：和左分支对称的SiLU激活函数，对特征做非线性变换；
（4）分支输出直接送入拼接融合节点，和左分支的输出形成特征互补。

4. 特征融合与最终输出
（1） 拼接节点c：左分支SSM的输出，和右分支卷积激活后的输出，在该节点做通道维度的拼接（Concat），将两个 $\frac{C}{2}$ 维度的特征，重新合并为和输入一致的 $C$ 维度特征，对应公式中的拼接操作；
（2）顶部Linear线性层：对拼接融合后的特征做最终的线性变换与特征整合，输出和模块输入维度完全一致的特征 $X_{\text{out}}$ ，保证该模块可以即插即用，无缝嵌入到MambaVision的网络层级中。

自注意力模块

我们采用通用的 多头自注意力（Multi-Head Self-Attention） 机制，计算公式如下：

$\text{Attention}(Q, K, V) = \text{Softmax}\left(\frac{Q K^{\top}}{\sqrt{d_{h}}}\right) V,$

其中， $Q, K, V$ 分别代表查询（Query）、键（Key）与值（Value）矩阵， $d_{h}$ 为注意力头的数量。此外，我们的框架支持窗口化注意力计算（窗口大小的消融实验可参见补充材料）。

四、方法

在这里插入图片描述
图 2 分层式 MambaVision 模型的架构

整个架构采用视觉任务经典的4阶段金字塔分层设计，遵循「分辨率逐步减半、通道维度逐步翻倍」的规律，核心设计思路是：

高分辨率特征阶段（前2个Stage）用轻量高效的CNN做局部特征快速提取，保证推理效率；
低分辨率特征阶段（后2个Stage）用「Mamba+Transformer」的混合结构做全局语义建模，兼顾长距离依赖捕捉与精度。

1. 输入层
最左侧是模型的输入：一张尺寸为 $\times W \times 3$ 的RGB图像， $H / W$ 是图像的高度/宽度， $3$ 对应RGB三通道，是计算机视觉任务的标准输入格式。

2. Stem（输入主干）
紧随输入的Stem模块，是图像的初步特征映射单元：

由2个连续的 $\times 3$ 、步长2的卷积层构成，对原始图像做4倍下采样；
输出特征尺寸为 $\frac{H}{4} \times \frac{W}{4} \times C$ ， $C$ 是初始通道维度，完成「原始像素→高维视觉特征」的初步转换，为后续阶段做准备。

3. Stage 1 & Stage 2（CNN主导的高分辨率特征提取阶段）
这两个阶段是MambaVision效率优势的核心设计之一，全程使用卷积模块处理中高分辨率特征：

Stage 1：输入是Stem输出的 $\frac{H}{4} \times \frac{W}{4} \times C$ 特征，核心是 $N_1$ 个Conv Block（卷积残差块），对应论文里的CNN残差公式，在高分辨率下高效提取局部空间特征；阶段末尾通过 Downsample（下采样） 模块（ $\times 3$ 、步长2的卷积），将分辨率减半、通道数翻倍，输出 $\frac{H}{8} \times \frac{W}{8} \times 2C$ 的特征。

论文中的CNN残差公式：
对应的公式如下：
$\begin{aligned} \hat{z} &= \text{GELU}(\text{BN}(\text{Conv}_{3 \times 3}(z))), \\ z &= \text{BN}(\text{Conv}_{3 \times 3}(\hat{z})) + z, \end{aligned}$
其中， $\text{GELU}$ 为高斯误差线性单元激活函数， $\text{BN}$ 为批归一化， $\text{Conv}_{3 \times 3}$ 为 $\times 3$ 卷积层， $z$ 为输入到该残差块的中间特征图（三维张量，维度为「高度 × 宽度 × 通道数」）。

Stage 2：结构与Stage 1完全一致，由 $N_2$ 个Conv Block构成，继续强化中分辨率的局部特征提取；阶段末尾再次下采样，输出 $\frac{H}{16} \times \frac{W}{16} \times 4C$ 的特征，进入核心混合建模阶段。

4. Stage 3 & Stage 4（Mamba-Transformer混合核心阶段）
这两个阶段是论文的核心创新，蓝色虚线框标注了每个阶段的混合结构，严格遵循论文验证的 前 $\frac{N}{2}$ 层MambaVision Mixer + 后 $\frac{N}{2}$ 层自注意力 最优设计：

Stage 3：
1. 输入为 $\frac{H}{16} \times \frac{W}{16} \times 4C$ 的特征，总层数为 $N_3$ ；
2. 前半段：重复 $\frac{N_3}{2}$ 次 MambaVision Mixer + MLP 组合。MambaVision Mixer是论文重新设计的视觉适配版Mamba模块，以线性复杂度高效捕捉长距离序列依赖；MLP（多层感知机）是标准的特征非线性变换单元。
3. 后半段：重复 $\frac{N_3}{2}$ 次 Self-Attention（自注意力） + MLP 组合。采用窗口多头自注意力，弥补Mamba在全局上下文、空间依赖建模上的短板，强化特征的全局语义关联。
4. 阶段末尾再次下采样，输出 $\frac{H}{32} \times \frac{W}{32} \times 8C$ 的特征。
Stage 4：
结构与Stage 3完全一致，总层数为 $N_4$ ，前半段MambaVision Mixer、后半段自注意力。作为网络的最深层，这里特征分辨率最低、语义信息最丰富，自注意力能最大化发挥全局建模能力，补全Mamba丢失的全局上下文信息。

5. 分类输出头
Stage 4输出特征后，经过两个模块完成最终的分类预测：

2D Avg Pool（二维全局平均池化）：在空间维度上对特征图做聚合，把 $\frac{H}{32} \times \frac{W}{32} \times 8C$ 的二维特征图，压缩为一维的全局语义特征向量，聚合整张图像的核心信息。
Linear（全连接线性层）：把池化后的特征向量，映射到最终的分类类别数（比如ImageNet-1K的1000个类别），输出每个类别的预测概率，完成图像分类任务。

五、实验分析

5.1 图像分类

表1展示了模型在ImageNet-1K数据集上的分类性能对比结果。将MambaVision与基于卷积、Transformer、卷积-Transformer混合、纯Mamba四大类架构的主流模型进行了全面对比，结果表明：在ImageNet Top-1准确率与图像推理吞吐量两项核心指标上，我们的模型大幅超越了此前的同类工作，刷新了该领域的帕累托前沿。

表1 ImageNet-1K数据集分类基准对比
（图像吞吐量在A100 GPU上测试，批大小为128）
在这里插入图片描述

5.2 目标检测与分割

我们在MS COCO数据集上评估了模型的目标检测与实例分割性能，结果如表2所示。为全面验证MambaVision的有效性，我们在完全相同的实验条件下，训练了不同尺寸的MambaVision模型，并与同规模的主流视觉骨干网络进行了对比。

表2 基于Cascade Mask R-CNN的MS COCO数据集目标检测与实例分割基准
（所有模型均采用3倍学习率调度策略训练，输入裁剪分辨率为1280×800）
在这里插入图片描述

在语义分割任务中，我们基于UperNet框架，在ADE20K数据集上完成了性能评估，结果如表3所示。可以观察到，在所有尺寸变体中，MambaVision的性能均优于同规模的竞品模型。
在这里插入图片描述

值得注意的是，这些性能提升均无需针对下游任务进行大量超参数优化，充分证明了MambaVision作为通用视觉骨干网络的鲁棒性，尤其在高分辨率场景中具备巨大潜力。此外，在全尺寸对比中，我们的模型mIoU始终优于Focal Transformer，同时模型规模与之相当。

5.3 消融实验

5.3.1 ImageNet-21K大规模训练

本工作首次在所有Mamba基方法中，将模型训练扩展到了超大规模的ImageNet-21K数据集，并完成了大尺寸模型的训练，结果如图4所示，性能表现极具竞争力。

图4 基于ImageNet-21K预训练的MambaVision模型，在不同模型尺寸与分辨率下的性能可扩展性
在这里插入图片描述

5.3.2 令牌混合器的设计验证

我们开展了全面的消融实验，对MambaVision令牌混合器进行了系统性的设计验证。实验以MambaVision-T为基础架构，在图像分类、目标检测、实例分割、语义分割全任务上评估了不同设计的性能表现，结果如表4所示。

表4 MambaVision令牌混合器的系统性设计消融
（w/o代表无该设计，concat代表拼接融合；conv1与conv2分别为图3中SSM分支与对称分支的卷积操作；COCO实验采用Mask-RCNN检测头、1倍学习率调度策略）
在这里插入图片描述

以原始Mamba范式为基线：SSM分支包含因果卷积层，无对称分支的额外卷积层。该基线配置在所有指标上均表现不佳，ImageNet Top-1准确率仅80.5%（比最优设计低-1.8%），MS COCO数据集box AP 44.8（低-1.6）、mask AP 40.4（低-1.6），ADE20K数据集mIoU 44.2%（低-1.4%）。

将SSM分支的因果卷积替换为常规卷积，全任务性能均有提升；在此基础上新增对称分支的卷积层，同时保留Mamba原始的门控机制而非拼接融合，ImageNet Top-1准确率提升至81.3%，COCO box AP提升至45.3、mask AP提升至41.0，ADE20K mIoU提升至45.7%。

采用双分支拼接的融合方式，全任务性能实现了大幅跃升：ImageNet Top-1准确率提升+1.0%，COCO数据集box AP提升+1.1、mask AP提升+0.8，ADE20K mIoU提升+0.9。这些结果验证了我们的核心假设：拼接SSM分支与非SSM分支的输出，能够让模型学习到更丰富的特征表征，增强对全局上下文的理解能力。

5.3.3 混合架构的融合模式验证

探究自注意力与MambaVision令牌混合器的多种混合融合模式，为保证公平对比，所有实验均基于MambaVision-T架构，采用等参数量模型，仅在第3、第4阶段修改混合模块的部署方式，结果如表5所示。

随机融合模式的实验结果最差，Top-1准确率仅81.3%，验证了无规律的自注意力部署无法发挥模型的性能优势。当自注意力模块部署在每个阶段的前N/2层时，准确率提升+0.2%至81.5%；自注意力与MambaVision交替部署的模式，性能轻微下降-0.1%至81.4%，而调换顺序为“MambaVision在前、自注意力在后”的交替模式，准确率提升至81.6%。

仅将自注意力模块部署在每个阶段的最后N/4层时，准确率实现了显著提升+0.3%至81.9%，支撑了我们的核心结论：自注意力在网络最终阶段部署时效果最优。进一步的优化实验表明，将自注意力扩展至每个阶段的最后N/2层时，模型取得了最优的82.3% Top-1准确率，证明了平衡MambaVision层与自注意力层的部署，对特征学习的重要性。

表5 不同混合融合模式的有效性消融实验
（S代表自注意力模块，M代表MambaVision令牌混合器模块）
在这里插入图片描述

5.3.4 可解释性

为了更好地理解MambaVision对视觉信息的处理逻辑，我们对最终阶段自注意力层的注意力图进行了可视化，结果如图5所示。可视化结果表明，无需显式监督，模型就能自动学习到对语义显著区域的关注。

图5 MambaVision自注意力层的可视化结果，展示了模型如何通过注意力图（中间）与叠加图（右侧），学习聚焦于语义显著区域
在这里插入图片描述
这些可视化结果，进一步支撑了我们的架构设计选择：在网络最终阶段使用自注意力模块，能够有效捕捉全局上下文与长距离依赖关系。

六、个人声明

本文为作者对原论文的学习笔记与心得分享，受个人学识与理解有限，文中对论文内容的解读或有不够周全之处，一切以原论文正式表述为准。本文仅用于学术交流与传播，内容均由作者独立整理完成，不代表本公众号立场。如文中所涉文字、图片等内容存在版权争议，请及时与作者联系，作者将在第一时间核实并妥善处理。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

二分之一车辆悬架半车模型研究（Simulink仿真实现）

本文针对二分之一车辆悬架系统，构建半车模型并开展B级路面激励下的动态响应研究。以前后轮路面激励为输入，通过仿真分析质心垂向加速度、俯仰角加速度及悬架动行程等关键性能指标，揭示悬架参数对车辆平顺性的影响规律。研究结果可为悬架系统优化设计提供理论依据，同时为整车动力学性能评估提供参考。

AtomGit开源社区

【最新创新】基于多元宇宙优化算法的考虑“源-荷-储”协同互动的主动配电网优化调度研究【IEEE33节点】（Matlab代码实现）

随着分布式新能源（风电、光伏）的大规模并网以及储能技术、需求响应机制的逐步推广，配电网的运行环境日趋复杂，传统依赖凸优化求解器的优化方法已难以满足多约束、非线性、多目标的配电网运行需求。本文以 IEEE33 节点配电网为研究对象，构建了包含新能源出力、储能系统、需求响应的协同优化运行模型，创新性地采用多元宇宙优化算法（Multi-Verse Optimizer, MVO）替代传统求解器，实现系统运