Abstract

多模态语义分割是计算机视觉中的一个关键挑战。早期方法由于需要对基于 RGB 的预训练参数进行全量微调,存在计算成本高、迁移能力有限的问题。近年来的研究虽然将额外模态作为 RGB 的补充提示来利用,但整体上仍然以 RGB 为主导,这限制了其他模态潜力的充分发挥。为了解决这些问题,我们提出了一种新颖的对称式参数高效微调框架,用于多模态分割。该框架包含一种模态感知的提示与适配机制,能够同时将强大的预训练模型能力适配到 RGB 模态和 X 模态上。此外,现有方法在模态融合时通常利用注意力机制建模全局跨模态相关性,但这种方式会不可避免地在不同模态之间引入噪声。为缓解这一问题,我们提出了一种动态稀疏跨模态融合模块,以实现更有效且更高效的跨模态融合。为了进一步增强上述两个模块,我们还提出了一种训练策略:利用双模态分支中预测较为准确的结果,反向指导单模态分支的学习,形成一种自教学机制。在全面的实验中,我们证明了该方法在仅需极低计算开销的情况下,在六种多模态分割场景中均优于此前的最先进方法。

1. Introduction

语义分割旨在为图像中的每个像素分配一个语义类别,是多种场景分析任务中的基础性工作 [6, 14, 69]。尽管现有方法已经取得了较为理想的效果,但仅依赖 RGB 数据的分割方法在复杂且具有挑战性的场景中往往会遇到困难,例如极端光照条件、背景杂乱以及运动模糊等。这些局限性在真实世界应用中尤为突出,尤其是在自动驾驶等安全敏感场景中。因此,越来越多的研究开始关注融合多模态数据,以获取更加全面的信息,例如 [5, 9, 31, 39, 47, 60]。

当前多模态分割领域中的主流方法 [42, 60, 66] 通常为每种模态分别采用独立的主干网络,构建一种对称式结构,以利用不同模态各自的特性。这些方法大多依赖全量微调训练(FFT, fully fine-tuned training)策略。随着提示学习在多个领域取得成功,基于提示调优的方法也逐渐出现,并显著减轻了计算负担。这类方法通常采用非对称网络结构,主要聚焦于 RGB 模态,而将其他模态视为提示信息 [12, 19]。

然而,这些方法主要存在两个方面的局限性:
(1)其非对称结构本质上将 X 模态降为辅助角色,因而无法充分挖掘其潜力(见图1);
(2)当前常见的模态融合方式依赖基于注意力机制来捕获全局跨模态相关性,但这种方式可能会在不同模态之间无意中引入噪声。

首先,为了更充分地挖掘 X 模态的潜力,我们提出了一种新方法,通过强大的预训练模型来增强其特征。尽管这些模型最初是在 RGB 图像上进行预训练的,但已有研究表明,它们的能力可以有效迁移到其他模态上 [21, 77]。基于这些发现,我们提出了一种基于参数高效微调(PEFT)的对称式架构模型,利用预训练模型强大的特征表征能力,同时增强 RGB 和 X 两种模态。因此,该框架将 X 模态视为与 RGB 同等重要的贡献者,而非仅仅作为辅助信息。在此基础上,我们设计了一个新的模块,称为模态感知提示与适配模块(Modality-Aware Prompting and Adaptation,MAPA)。该模块利用 RGB 与 X 模态聚合后的知识,为每一种模态生成特定的提示信息。此外,它还能借助专用的适配器,将预训练模型的特征表示能力自适应地迁移到各个模态上。其次,为了减轻全局跨模态相关性所带来的噪声问题,我们提出了一种模态特定的可变形注意力机制,称为动态稀疏跨模态融合模块(Dynamic Sparse Cross-modality Fusion,DSCF)。该模块使模型能够在各模态特征中稀疏且动态地识别主导区域,从而实现更有效的跨模态融合。为了进一步增强上述两个模块,即模态特征增强和跨模态融合,我们又提出了一种创新的训练策略,称为掩码模态自教学策略(Masked Modality Self-Teaching Strategy)。该策略在训练过程中随机遮蔽其中一种模态输入,从而避免模型对任一单一模态产生过度依赖。除了利用跨模态结果进行监督外,我们还使用融合后较为准确的双模态结果,对单模态中对应区域进行自教学,这种方式能够隐式地进一步强化跨模态特征增强。

为了进行评估,我们在六个具有不同模态的数据集上开展了对比实验。实验结果表明,我们的模型显著优于当前最先进的基于 PEFT 的方法;例如,在 PST-900 数据集上,相比现有最优方法取得了 7.2% 的 mIoU 提升 [44]。值得注意的是,在训练参数量仅为全量微调方法 [25] 的 4% 的情况下,我们的模型仍然表现出与之相当甚至更优的性能。此外,相较于基线模型,我们提出的方法仅额外增加了 5.5M 参数,却在 NYUD-v2 数据集 [45] 上带来了 +10.7% mIoU 的显著绝对提升,体现了模型效果与效率之间的良好平衡。

总体而言,我们的贡献总结如下:

  • 为了在 RGB-X 语义分割中充分发挥 X 模态的作用,我们提出了一种具有对称式架构参数高效微调框架。该框架将 X 模态视为与 RGB 同等重要的贡献者,而非仅仅扮演辅助角色。
  • 我们提出了一种新的模态感知提示与适配模块(Modality-Aware Prompting and Adaptation, MAPA),用于同时将强大预训练模型的能力适配到 RGB 和 X 两种模态。
  • 为了减轻全局跨模态相关性带来的噪声,我们提出了一种动态稀疏跨模态融合模块(Dynamic Sparse Cross-modality Fusion, DSCF),以实现高效且有效的跨模态融合。
  • 为了进一步提升模态增强与模态融合效果,我们提出了一种训练策略,利用预测更准确的双模态结果对单模态输出进行自教学。
  • 实验结果表明,在六个下游多模态语义分割数据集上,我们的方法在仅引入极小计算开销的前提下,达到了优于现有 PEFT 方法的最新最优性能,并且其表现甚至可与基于全量微调(FFT)的方法相媲美。

2. Related Work

Multimodal Semantic Segmentation.多模态语义分割已经得到了广泛研究。研究者提出了多种多模态分割器,通过利用补充模态中的互补信息来提升分割性能,这些补充模态包括深度 [5, 7, 9, 24, 40, 43, 50, 61, 70, 73]、热红外 [13, 17, 33, 44, 49, 55, 68, 74]、偏振 [27, 38, 58] 以及事件数据 [1, 64, 65]。然而,这些方法中的大多数依赖于全量微调策略,这不仅耗时且效率较低,而且较大的参数存储负担也使其不适用于许多实际应用场景,部署起来较为困难。此外,这些方法主要关注单任务设置,因此在不同类型的传感数据之间往往缺乏良好的泛化能力 [4, 17, 36, 45, 66]。与这些工作不同,本文探索了一种新的参数高效范式,该范式适用于多种多模态语义分割任务,并能够取得令人满意的性能。

Parameter-Efficient Fine-tuning for Vision.随着大模型的发展 [18, 41, 62],参数高效微调(PEFT)变得越来越重要。PEFT 最初应用于自然语言处理领域 [22, 23, 29],近年来也在计算机视觉中得到了广泛探索 [28, 53, 54, 77]。其核心思想是在冻结预训练模型权重的前提下,仅训练极少量新增参数,从而在保持预训练模型效率和性能的同时,实现对下游任务的适配。常见的 PEFT 方法包括基于适配器的微调 [8, 20, 22] 和提示微调 [29, 32, 56]。近年来,DPLNet [12] 和 GoPT [19] 尝试将 PEFT 引入多模态稠密预测任务中。这些方法主要依赖 RGB 模态,并将其他模态作为提示信息来使用。这样一来,辅助模态本身的潜力以及模态间交互都无法得到充分挖掘,从而限制了模型利用多模态互补性的能力。为了解决这一问题,我们提出了一种对称式 PEFT 框架,旨在更充分地探索并融合不同模态各自的优势,从而凸显多模态数据在语义分割任务中的价值。

3. Method

3.1. Overview

本研究提出了一种采用对称架构的RGB-X多模态分割模型。我们以预训练Transformer作为骨干网络(即在ImageNet[10]上预训练的SwinTransformer[37]),并搭配轻量级线性分割头。与传统 PEFT 方法将X模态视为次要或辅助提示不同,本方法将RGB和X视为同等重要的贡献因素。整体架构如图2所示,模型包含四个阶段,每个阶段主要由三个关键步骤构成:1)模态感知提示与适配(第3.2节),2)动态稀疏跨模态融合(第3.3节),3)分割结果生成。

3.2. Modality-Aware Prompting and Adaptation

MAPA 可以进一步分为三个步骤。首先,它将双模态特征融合为统一表示,从而促进不同模态之间的信息共享。随后,将这一统一表示投影到各自模态的分布空间中,以生成后续步骤所需的异构提示。最后,将生成的提示与模态特定的适配器结合,得到模态特定的特征。

统一双模态特征。从形式上讲,统一双模态特征的过程可以这样描述

Prompt Generation.接下来,我们将统一表示Xuni投影到每种模态上,以定制异构多模态提示。该投影可表示为:

Modality-specific Adaptation. 模态特定适配(Modality-specific Adaptation)。我们将模态特定适配器嵌入到标准 Transformer 层中,使其能够有效地将预训练模型的能力迁移到各个对应模态上。在具体实现中,这种模态特定适配器采用一种沙漏型结构。它由一个降维投影层、一个升维投影层以及一个 ReLU 非线性激活函数组成。其中,降维投影层的参

3.3. Dynamic Sparse Cross-modality Fusion

以往的 PEFT 方法 [19, 20] 往往采用专门设计的模块来为不同模态建立全局关联。然而,引入这些模块可能会带来不必要的计算开销,因为并非图像中的所有区域都对任务是必要的。为了从不同模态中捕获主导区域并建立长距离的上下文模态关系,受可变形注意力机制 [57] 的启发,我们采用如下策略:首先,在一个低秩空间中识别来自不同模态的关键可变形点,构建一个多模态点集;随后,对这些显著点进行采样和加权,并建立它们之间的长距离上下文关系。

3.4. Masked Modality Self-Teaching Strategy。

先前的 PEFT 方法在复杂现实场景中表现出较差的鲁棒性和性能,这归因于其过度依赖主导模态,且未能充分挖掘跨模态互补信息。

为克服这一局限,我们提出 MMST 训练策略。具体而言,在训练阶段,我们随机遮蔽两种模态中任一模态的全部输入图像,以模拟模态失衡的极端情况,从而降低模型对单一模态的过度依赖。在这些情况下,仅监督融合特征的分割结果 Xˆ †往往会促使模型依赖 DSCF 的特征融合能力,可能忽视了在早期阶段(即 MAPA)对模态间交互和特征适应的充分利用。因此,我们在 DSCF 融合前对 Xˆ RGB和 Xˆ x进行额外监督。

4. Experimental Results

为全面验证所提模型的性能与泛化能力,我们在六种不同模态数据集上开展了大量实验。这些数据集涵盖多种模态组合,包括RGB-Depth(RGB-D)、RGB-Thermal(RGB-T)、RGB-Event(RGB-E)和RGB-Polarization(RGB-P)。

4.1. Comparison with State-of-the-arts

本节通过多个数据集实验,将我们的方法与包括全参数微调(FFT)和参数高效微调(PEFT)在内的前沿方法进行对比。沿用先前研究[16,25,26]的做法,我们采用在ImageNet[10]上预训练的SwinTransformer模型[37]基础版和扩展版作为骨干网络,分别命名为Swin-B和Swin-L。训练过程中,我们冻结骨干网络的参数。更多细节请参阅补充材料。

NYU Depth V2 数据集 [45] 是一个室内场景理解数据集,包含 1,449 个 RGB-D 样本,分辨率为 480×640,覆盖 40 个不同类别。如表 1 所示,我们使用 Swin-L 的模型取得了新的最先进性能,相比此前最优的 PEFT 方法提升了 5.0%。与最优的 FFT 方法相比,我们的方法在仅训练其 4.4% 参数量16.1M vs. 369.2M)的情况下,实现了可比的性能,体现了我们方法的高效性。

SUN-RGBD 数据集 [46] 包含 10,335 张 RGB-D 图像,共 37 个类别。按照 [35, 63] 的设置,我们将输入随机裁剪并缩放到 480×480。如表 1 所示,我们的方法在使用 Swin-B 时就已经取得了领先成绩,mIoU 达到 53.7%,优于已有的 PEFT 方法。进一步使用 Swin-L 后,mIoU 提升到 55.0%,明显超过了所有现有最先进方法,包括最好的 FFT 方法。值得注意的是,我们的模型仅包含 16.1M 可训练参数。这些结果证明了我们方法的有效性。

MFNet 数据集 [17] 是一个城市街景数据集,包含 1,569 对 RGB-T 图像,图像尺寸为 480×640,标注了 8 个类别。如表 2 所示,我们的 Swin-B 和 Swin-L 模型都优于现有 PEFT 方法。然而,由于 MFNet 数据集规模较小,且包含复杂的夜间图像,Swin-L 模型较高的复杂度使其表现略逊于 Swin-B。值得注意的是,我们的 Swin-B 版本相较于此前的 PEFT 方法取得了至少 2.2% 的大幅提升,并且达到了与最优 FFT 方法相当的性能。

PST900 数据集 [44] 包含 894 对同步的 RGB-T 图像,空间分辨率为 720×1280,涵盖 5 个类别。按照 [33] 的设置,我们将输入随机裁剪并缩放到 480×640。如表 2 所示,我们的方法在 FFT 和 PEFT 两类方法上都超过了此前的最优方法,分别提升了 2.1% 和 7.2%

MCubeS 数据集 [34] 是一个用于语义材料分割的数据集,包含 RGB、近红外(NIR)、线偏振度(DoLP)和线偏振角(AoLP)图像。该数据集由 500 对图像组成,图像大小为 1024×1224,并提供 20 个类别的稠密标注。如表 3 所示,我们的方法在多个设置下都取得了最先进性能:在 RGB-N 上达到 53.8%,在 RGB-D 上达到 54.5%,在 RGB-A 上达到 53.7%

DeLiVER 数据集 [67] 是一个综合性的多模态数据集,包含 RGB、Depth、LiDAR 和 Event 数据,共涉及 25 个语义类别。如表 4 所示,在我们的实验中仅使用了 RGB 和 Event 两种模态,并取得了相较于此前最优方法 +0.6% 的绝对提升。

可视化结果。 如图 4 所示,我们展示了本方法与 CMNeXt [67] 的若干对比示例。结果表明,我们的模型能够有效利用多模态信息来应对具有挑战性的场景(例如,在夜间条件下,热红外图像和事件图像都能提供非常有价值的信息),从而获得更准确的分割结果。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐