L-MAE:掩码自编码器是语义分割数据集增强器

L-MAE: Masked Autoencoders are Semantic Segmentation Datasets Augmenter

论文:https://ieeexplore.ieee.org/abstract/document/10971225/
会议:IEEE
年份:2023

预备知识

(一)计算机视觉:语义分割基础

L-MAE 的目标是解决语义分割的数据集标注问题,语义分割的定义:像素级的图像分类任务,将图像中每个像素分配到对应的语义类别(如人、车、背景、树等),最终输出与原图尺寸一致的像素级标签图,区别于目标检测(框出物体)和实例分割(区分同一类的不同实例)

(二)深度学习:自编码器与掩码自编码器(MAE)

L-MAE 是将 MAE 迁移到语义分割标签补全的模型

(三)深度学习:Transformer 基础

L-MAE 的编码器 / 解码器核心模块是LMMSA(L-MAE 多头注意力),基于 Vision Transformer(ViT)设计

创新点

  1. 提出 L-MAE —— 首个用于标签补全的 MAE框架

首次将 MAE 用于:

(1)像素级标签补全(label completion)

(2)数据集增强(dataset augmentation)

意义:不再只是学特征,而是直接生成更好的标签

 从“模型增强” → “数据增强”的范式转变

2.Stack Fuse(标签 + 图像深度融合机制)

解决的问题在于:

MAE 只处理图像,如何让模型理解“标签 + 图像”的关系?

方法:将 label 按类别拆成 多通道(N类)

与 RGB 图像拼接
本质优势:
(1)显式保留每个类别信息
(2)避免 label 被图像特征淹没

3.Image Patch Supplement(IPS)
解决 MAE 在该任务中的关键缺陷:

拟要解决的问题:

MAE mask 会同时遮掉:

label ❌

image ❌

导致重建时缺少图像信息

提出 IPS:

👉 在 decoder 前:

用原始 image patch 补回被 mask 的图像部分

📌 本质:

只mask label语义,但不丢失图像信息

实验部分

L-MAE架构

在这里插入图片描述

图1. MAE与我们主要思想的示意图。(a)MAE对图像信息执行掩码和重建策略,能够学习特征来补全不完整的图像。(b)为了在语义分割数据集的标签上细化像素级信息,我们提出了一种标签掩码自编码器框架。首先,为了充分利用输入,我们提出了一种融合不完整标签和对应图像的策略,即堆叠融合,以得到融合图。其次,我们执行掩码-重建流程以获得最终的精确预测。具体来说,我们设计了一种图像块补充算法,在流程中补充图像信息,这能使平均交并比(mIoU)提升4.1%

图 1(a):标准 MAE 的逻辑 (MAE Baseline)

输入对象:仅包含图像信息(Incomplete Image)

处理逻辑:将图像划分为多个补丁(Patches),随机遮盖掉大部分补丁(Masked Patch),仅将可见部分输入 Encoder

目标:通过 Decoder 重建缺失的像素,使模型学习图像的特征表达,最终输出完整的图像(Complete Image)

图 1(b):L-MAE 的逻辑 (核心创新点)
L-MAE 将上述逻辑从“图像重建”迁移到了“标签补全(Label Completion)”任务中
输入阶段:Stack Fusion (堆栈融合策略)问题:如果只输入不完整的标签(Incomplete Label),模型缺乏重建所需的上下文指引 。解决:将不完整的标签与原始图像进行融合

逻辑:标签被按类别展开为多层,与图像拼接形成 Fuse Map(融合图)。这样在进入 Encoder 之前,模型就已经获得了图像提供的视觉信息辅助

处理阶段:Encoder-Decoder 架构与 MAE 类似,它只对可见的 Fuse Map 补丁进行编码(Encoder),然后由 Decoder 负责预测被遮掩区域的标签 。关键辅助:Image Patch Supplement (IPS, 图像块补充)逻辑:在 Decoder 预测前,图中有一条虚线从原始图像指向 Decoder。这是因为在掩码过程中,图像信息也被盖住了

操作:IPS 算法会将缺失区域对应的原始图像补丁找回来,填补到 Decoder 的输入中 。作用:确保 Decoder 在重建标签时,能够“看到”那个位置对应的真实图像长什么样,从而大幅提升预测准确度

最终输出:Complete Label模型的最终产出不再是图像像素,而是修复后的、像素级精确的完整语义分割标签

利用图像信息作为引导(通过 Stack Fusion 和 IPS),将原本用于图像像素恢复的 MAE 结构,改造为专门修复损坏或缺失标签的增强工具(L-MAE)

L-MAE 框架的整体架构

在这里插入图片描述

图3. 所提出的标签掩码自编码器(L-MAE)框架概述。L-MAE主要由堆叠融合模块、L-MAE编码器、L-MAE解码器和图像块补充模块组成。L-MAE编码器应用于可见融合图块的小子集,而L-MAE解码器应用于掩码部分。图像块补充模块用于向掩码位置补充图像块,这里的图像信息在执行掩码选择器模块后丢失。此处的LMMSA指的是标签掩码自编码器多头注意力模块

  1. 数据准备阶段:Stack Fusion (堆栈融合)输入:原始图像 (Image) 和 不完整的标签 (Incomplete Label)
    逻辑:作者发现简单的拼接会导致标签信息被图像淹没。因此,他们将单通道标签按类别展开为 N N N 维( N N N 为类别总数),每一维代表一个类别的二值掩码,然后将其与 3 通道的 RGB 图像拼接,形成一个通道数为 N + 3 N+3 N+3 的 Fuse Map
    作用:在进入网络前就显式地保留了已有的标签结构信息,避免被图像特征覆盖 。

2.训练/处理阶段:Patching 与 Masking

Patch Embedding:融合后的 Fuse Map 被切分为固定大小的 Patch(补丁),并映射为向量(Embedding),同时加上位置编码(Position Embedding)以保留空间信息

Discard the Masking Region:根据掩码比例(如 50%、60%),模型会随机或按策略遮盖掉大部分 Patch。只有可见的(未被遮盖的)Patch 会被送入 Encoder

  1. 核心网络层:L-MAE Encoder & DecoderEncoder (编码器):负责从可见的融合补丁中提取高级特征。默认由 12 个 LMMSA 块组成
    Decoder (解码器):负责重建完整的标签。它由 8 个 LMMSA 块组成 。它的输入不仅包括 Encoder 输出的特征,还包括表示掩码区域的占位符
    LMMSA Block:全称是“L-MAE 多头注意力模块”。它是网络的基础块,包含多头自注意力层(MulAttn)和前馈神经网络(FFN),通过残差连接和层归一化(Layer Norm)连接

4.关键算法:Image Patch Supplement (IPS, 图像块补充)

对应位置:位于 Encoder 和 Decoder 之间

逻辑:在标准 MAE 中,掩码区域在进入 Decoder 前通常填充为 0 或随机噪声。在 L-MAE 中,作者利用图中的虚线路径,将掩码区域对应的原始图像 Patch 找回来补入 Fuse Map 中
提取原图块:在进入解码器之前,IPS 会根据掩码记录的索引,从原始 RGB 图像中提取出与被遮掩区域位置完全对应的图像块(Image Patches)
精准替换:IPS 将这些“真实图像块”插入到从编码器(Encoder)输出的特征序列中,替换掉原本空白的掩码占位符
输入解码器:最终进入解码器的补丁序列(Patches)中,原本被遮掩的位置现在包含了该区域真实的视觉背景,而非无意义的 0

L-MAE推理阶段流程

在这里插入图片描述

图4.标签掩码自动编码器的推断阶段。当输入图像标签对时,首先会计算标签背景部分的比例,根据计算结果,图像标签对将被发送到具有相应掩码比例的L-MAE

1.输入阶段 (Input)
输入对象:一对包含原始图像 (Image) 和 不完整标签 (Incomplete Label) 的数据 。目标:对标签中缺失或损坏的像素级语义信息进行自动补全

  1. 背景比例检测 (Background Ratio Detection)核心逻辑:标签输入后,系统首先运行 背景比例检测算法 (Background Ratio Detect algorithm)
    操作过程:该算法将标签划分为补丁(Patches),并计算其中背景区域所占的百分比 。图中展示了一个检测实例,其背景比例计算结果为 62.5%

  2. 多掩码比例架构的分流 (Multi-mask Ratio Architecture)逻辑分流:根据检测到的背景比例,系统会将数据“分流”到对应掩码比例下预训练好的 L-MAE 模型中 。具体映射规则(如图中虚线所示):
    背景比例 > 61% 且 ≤ 70%:送入 70% Mask Ratio L-MAE
    背景比例 > 31% 且 ≤ 60%:送入 60% Mask Ratio L-MAE
    背景比例 ≤ 50%:送入 50% Mask Ratio L-MAE
    作用:这种定制化的匹配机制确保了模型能够根据标签缺失的严重程度,采用最精准的参数进行修复,提高了推理的灵活性和准确性

  3. 补全与输出 (Completion & Output)模型处理:选定的 L-MAE 模型结合原始图像的信息(通过 IPS 算法补充视觉特征),对缺失部分进行重建
    最终产出:输出修复后的 完整标签 (Complete Label),恢复了原本丢失的物体轮廓和细节

在这里插入图片描述

图5. 图像补丁补充过程概述:在将融合图发送到解码器之前,我们使用图像的相应补丁信息来补全融合图的尺寸,而非使用0。该算法能够避免因用补丁对融合图进行掩码操作而导致相应位置的图像信息丢失

核心问题背景:解决“信息真空”
在标准的 MAE 流程中,当掩码(Mask)覆盖掉某个区域时,该区域的图像信息和标签信息会同时丢失。如果直接进入 Decoder 进行重建,由于缺乏该位置原始图像的视觉特征引导,补全的标签往往不够精确

左侧分支(Masking 过程):

Fuse Map(由图像和不完整标签堆叠而成)被划分为补丁(Patches)。

执行掩码操作,产生的 Masked Patches(掩码块)在常规流程中是不含任何有用信息的占位符。

中间分支(IPS 算法介入):

逻辑:算法从原始图像(Original Image)中提取出与掩码区域位置完全对应的图像块(Image Patches)。

操作:将这些“找回来”的纯图像块,填充到掩码位置。

右侧输出(Decoder 输入):

结果:进入 Decoder 的数据不再是全黑或随机的占位符,而是由“Encoder 输出的特征块”和“由 IPS 补充的图像原始块”组合而成的完整表示

与主流语义分割模型对比

在这里插入图片描述

表1 在PASCAL VOC 2012和CITYSCAPES数据集上与监督语义分割最先进方法的比较。为保证公平性,我们的结果使用PA-MIOU指标。“M”表示掩码比例,而我们的L-MAE选择的超参数组合为编码器块8个、解码器块6个、编码器嵌入维度1440、解码器嵌入维度720

Pascal VOC 2012 数据集 整体表现:在 50% 的掩码比例下( m = 0.5 m=0.5 m=0.5),L-MAE 的平均 mIoU (PA-mIoU) 达到了 91.0%,在 60% 掩码比例下达到了 89.1%
优势类别:在一些极具挑战性的类别上,L-MAE 表现远超全监督模型

Cityscapes 数据集 整体表现:在城市道路场景下,L-MAE (60% 掩码) 在 Wall (墙)、Fence (栅栏)、Terrain (地形) 等类别上的 PA-mIoU 显著高于全监督模型
特定优势:例如在 Wall 类别上,L-MAE 达到了 89.2%,而传统的 HRNet-OCR 或 HMSA 仅在 66.9% 到 71.6% 之间

实验总结:
超越全监督模型:实验数据证明,L-MAE 在预测缺失区域的标签时,其精确度超过了直接在全图上进行语义分割的模型
鲁棒性:即使在遮掩比例高达 60% 的情况下,L-MAE 依然能保持极高的补全准确率
互补性:结果表明 L-MAE 学习到了标签与图像之间的深层对应关系,特别是在大面积信息缺失(如桌子、沙发等大面积物体)时,其补全效果具有压倒性优势

标签增强效果评估

在这里插入图片描述

表II 与半监督语义分割最先进的U2PL在PASCAL VOC 2012上的比较。L-MAE的指标mIoU为PA-mIoU,以确保公平性

实验结果与分析:性能飞跃:使用 L-MAE 修复后的数据集训练的模型,其最终分割性能(mIoU)比直接使用损坏数据提升了 13.5%
结论:这证明了 L-MAE 生成的标签具有极高的保真度,能够显著纠正原始数据中的标注错误或缺失,从而大幅提升下游分割模型的上限

消融实验

在这里插入图片描述

表III 与几种不同堆叠融合方法的比较,此处的直接拼接是将标签直接拼接到图像RGB 3层的后面,此处的插入拼接是将标签复制3次,并将它们插入到RGB 3层之间,层拼接是按类别对标签进行分层

核心组件的贡献分析:IPS 算法的有效性:实验对比了使用 IPS(图像块补充)和不使用 IPS 的效果。结果显示,引入 IPS 后模型在预测区域的 mIoU 平均提升了 4.1%

Stack Fusion 策略:对比了简单的通道拼接(Concat)与作者提出的 Stack Fusion。结果证明 Stack Fusion 能够更有效地防止标签信息被图像特征淹没,从而获得超越 SOTA 模型的表现

实验对比了单一策略(如仅 Random Mask)与混合策略(Random + Background First + Label First)

结论:采用 1:2:2 的混合比例 效果显著优于任何单一策略,因为它使模型具备了处理各种复杂缺失场景的能力

定性分析对比图

在这里插入图片描述

图8. 不同设置下的定性示例

Original Image:原始输入的 RGB 图像

GT (Ground Truth):原始的完整标签,作为对比的“标准答案”

Masked Label:经过人工掩码处理后的“破损标签”,即输入给 L-MAE 的不完整数据

Prediction (L-MAE Output):L-MAE 模型重建后的完整标签

结论:
直观地验证了论文提出的 Stack FusionIPS 算法 的有效性。 证明了 L-MAE 作为一个“数据集增强器” ,确实具备将低质量、不完整的标注提升至高质量标注的能力,从而为后续的语义分割模型训练提供更可靠的监督信号

总结

提出了一种名为 L-MAE(标签掩码自编码器) 的创新方法,旨在解决语义分割数据集制作成本高且标注易出错的问题 。该模型首次将掩码自编码器(MAE)架构应用于下游的标签补全任务,通过一种 Stack Fusion(堆栈融合) 策略将不完整的标签与原始图像融合,并利用 Image Patch Supplement(图像块补充) 算法在重建过程中引入视觉引导,从而实现像素级的精准标签修复 。实验证明,L-MAE 在补全精度上超越了现有的先进模型,且使用其增强后的数据集训练分割模型,性能显著提升 13.5% 。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐