摘要:开放世界目标检测(OWOD)将目标检测问题拓展至真实动态场景,要求检测模型既能识别已知目标,又能检测未知目标,并能持续学习新引入的知识。现有 OWOD 模型(如ORE和OW-DETR)主要通过将具有高目标性评分的区域伪标记为未知区域,其性能高度依赖已知目标的监督标注。虽然这些模型能检测到与已知目标特征相似的未知目标,但存在严重的标签偏差问题——它们往往将所有与已知目标特征不相似的区域(包括未知目标区域)误判为背景。为消除标签偏差,本文提出了一种创新方法:通过无监督判别模型学习,从无监督区域提议方法生成的原始伪标签中识别真实未知目标。所得模型可通过一种无需分类的自训练方法进一步优化:该方法通过迭代方式将伪未知对象扩展至未标注数据集。实验结果表明:本方法1)在MS COCO数据集上检测未知对象时显著优于现有 SOTA ,同时对已知对象类别的检测性能仍具竞争力;2)在 LVIS 和Objects365数据集上展现出更优的泛化能力。

1. 引言

近年来,基于深度学习的目标检测技术取得了巨大进展。然而,传统目标检测模型通常采用封闭世界场景,即仅考虑人工标注的已知目标,而忽略所有未标注的目标。但在某些场景中,识别未知目标至关重要——例如自动驾驶汽车或机器人需要检测未知障碍物以避免碰撞并确保安全。Dhamija等人的早期研究探讨了开放集目标检测(OSOD)问题:检测器使用已知目标标签进行训练,但在测试时需识别未知目标;Joseph等人进一步将 OSOD 任务扩展至更动态的开放世界目标检测(OWOD)场景,要求模型同时识别已知和未知目标,并能通过新引入的知识进行增量训练。先前方法通过将与已知目标不重叠且具有高目标性评分的区域伪标记为未知区域来解决 OWOD 问题;这些目标性评分反映了该区域属于前景的概率。此类物体性评分反映了区域属于前景的概率,可通过使用基于已知物体标签训练的类别无关检测器。这些方法能有效检测与已知物体特征相似的未知物体,但存在显著的已知类别标签偏差问题——即容易将所有与已知物体特征不符的区域(包括未知物体区域)误判为背景。

先前的一些方法曾尝试采用无监督区域提议生成技术来提升 OWOD 模型的泛化能力。这类无监督区域提议通常基于人工设计的低级特征(如颜色、纹理、形状和轮廓)生成,能够提供关于潜在未知物体所在区域的先验知识与物理约束。然而,这些区域提议仍需依赖基于物体特征的伪标签进行校准。因此,在 OWOD 任务中阻碍未知物体检测的标签偏差问题仍未得到解决。

为解决上述标签偏差问题,我们提出了一种名为 MEPU 的新型 OWOD 框架,用于建模和扩展由无监督区域提议生成器生成的伪未知对象。 MEPU 首先通过无监督判别模型学习,从无监督提议生成器产生的大量原始伪标签集中识别未知对象。关键在于:常见背景区域(如天空、海洋、草原和白色墙壁)在不同图像中频繁出现,且通常具有重复性与简单的低级特征模式(如颜色、纹理);而前景区域由于包含多种物体类别,其视觉模式呈现高度多样性。因此从特征频率域视角看,背景与前景区域分别形成两种不同分布特征。受基于重构的离分布(OOD)检测模型启发,我们发现编码器-解码器框架(如自编码器)是建模此类具有不同出现频率区域特征的理想工具。为此,我们通过名为重建误差基威布尔模型(REW)的新模块实现前景与背景的无监督建模,该模型通过区域重建误差的威布尔分布建模来识别未知对象。基于前景区域与背景区域的威布尔分布模型,所有伪标签均被赋予软标签以评估其作为真实未知物体的可能性。

我们的REW模块能够有效解决标签偏差问题,因为我们利用特征频率而非与已知对象的相似性进行处理。如通过物体识别评分来识别未知物体。需要注意的是,基于重建的 OOD 检测器在 OWOD 场景中无法有效工作,因为难以根据每张训练图像自适应地确定未知物体的决策阈值。我们通过REW模块中的威布尔模型解决了这一问题。

MEPU 进一步训练了一个基于REW增强的物体定位网络(ROLNet),用于将伪未知标签扩展到未标记区域。具体而言,REW生成的软标签被整合到无分类检测器物体定位网络(OLN)的训练损失函数中,使得未知物体的伪标签能在每轮自训练过程中被有效且准确地扩展,从而进一步缓解标签偏差问题的影响。

我们的贡献可概括如下:– 我们提出了一种名为 MEPU 的新方法,该方法将未知物体识别问题分解为两个子问题:在无监督区域生成器生成的原始伪标签中对未知物体进行无监督建模;以及扩展这些伪标签未涵盖的新未知物体。– 我们引入了一个名为基于重建误差的威布尔模型(REW)的新模块,该模块通过威布尔模型利用物体出现频率的先验知识,从而实现高效识别。

我们进一步训练了一个基于REW增强的对象定位网络(ROLNet),该网络通过合成REW生成的软标签并采用无分类自训练机制,有效且精准地扩展了伪标签的覆盖范围。实验表明,所提出的方法 MEPU 1)在检测未知物体方面显著优于现有 SOTA(例如未知召回率提升幅度高达约13.9%),同时在MSCOCO数据集上对已知物体类别的检测性能仍保持竞争力;2)在 LVIS 和Objects365数据集上展现出更强的泛化能力。

2 相关工作

开放集目标检测领域,Dhamija等人率先系统研究了 OSOD 问题,要求检测器在测试阶段识别未知物体。采用丢弃采样(DS)技术评估目标检测器的不确定性并剔除未知物体。 VOS通过合成虚拟异常值来在训练过程中优化模型决策边界。OpenDet通过分离潜在空间中的高密度与低密度区域实现未知物体识别,该方法运用对比特征学习器(CFL)和未知概率学习器(UPL)达成目标。其他研究则致力于生成类别无关的区域提议,以提升对未知类别物体的泛化能力。Kim等人提出了一种对象定位网络(OLN),该网络用定位质量预测头替换了Faster- RCNN中的分类头,从而避免检测器对已知类别过度拟合并降低未知物体的评分。提出了一种名为BackErase的新数据增强方法,通过将已知物体粘贴到从原始图像小区域采样的背景图像上,防止潜在未知物体被误判为阴性样本。提出的通用分组网络(GGNs)通过学习像素间的成对亲和性(PA),利用PA预测构建伪标签,该方法对未知物体具有良好的泛化能力。定义了实体分割任务,要求对图像中所有视觉实体(包括物体和背景元素)进行分割。研究者基于统一中心化表征框架设计了实体分割方案,并提出全局核库与重叠抑制模块以生成高质量的类别无关分割掩码。

开放世界目标检测。Joseph等人将 OSOD 任务扩展至更具动态性的场景,并提出了 OWOD 问题:模型需同时识别已知与未知目标,并能通过新引入的知识进行增量训练。他们提出的ORE模型利用 RPN 的物体性评分对未知目标进行伪标注,并采用基于能量的分类器区分已知与未知类别。 OWDETR 以可变形DETR(检测变换器)作为基础检测器,利用从中间特征获取的注意力图作为评分来为未知类别分配伪标签。PROB在标准可变形DETR模型中进一步集成概率性物体性头,通过迭代估计物体性概率分布并最大化已知目标的似然值,从而学习适用于已知与未知目标的通用特征。CAT采用级联解码方式通过共享解码器解耦检测过程,并运用自适应伪标注机制——该机制结合模型驱动与输入驱动的伪标签,自适应生成针对未知目标的鲁棒伪标签。Wu等人提出UnknownClassified Open World Object Detection(UC- OWOD),要求模型将未知目标分类到不同的未知类别中。他们设计了基于相似性的未知分类(SUC)方法用于将未知对象识别为不同类别,并提出未知聚类精炼(UCR)方法以优化未知对象的分类结果。

尽管先前方法在 OWOD 任务中对未知物体的识别方面取得了显著进展,但它们仍依赖于已知物体标签的监督来实现未知物体的伪标注,即利用物体属性评分进行标记。因此,这些方法存在前文所述的标签偏差问题,导致其对与已知物体语义无关的未知物体识别能力受限。相比之下,我们的模型实现了无监督判别式未知物体识别,有效解决了标签偏差问题,显著提升了 OWOD 模型对未知物体的检测性能。

无监督区域提议生成方法。在深度学习时代之前,许多研究主要基于人工设计的低级特征(如颜色、纹理和轮廓)生成区域提议作为候选对象。选择性搜索算法通过贪婪合并超像素来生成提议。边缘框方法则通过统计边界框的边缘轮廓数量进行评分来生成提议。但由于精度较低且计算成本较高,这些方法后来被基于深度学习的监督方法所取代。Geodesic在《对象提案》中,基于图像中种子点计算的测地距离变换中的关键水平集,识别出一组候选对象。近期,多项研究探索了如何以无监督方式生成基于深度网络的区域提案。FreeSOLO无需人工标注即可实现类别无关的实例分割,其提案质量显著优于以往的无监督方法;而Detreg则在ImageNet数据集上通过选择性搜索方法训练,生成伪真实标签。尽管这些无监督区域提议生成方法无法精确定位每个目标,但它们能提供关于潜在未知目标所在区域的附加知识与几何约束。在本文提出的方法中,我们利用这些无监督区域提议生成器来生成未知目标的原始伪标签。

基于重构的 OOD 检测方法。 OOD 检测旨在识别并剔除不属于模型训练分布的测试样本。基于重构方法的核心思想在于:在ID(分布内)数据上训练的编码器-解码器框架对 OOD 数据会产生更大的重构误差,因此我们可以在推理阶段通过重构误差来区分ID样本与 OOD 样本。通过引入潜在空间中的马氏距离,有效捕捉了那些在潜在空间中远离ID样本但邻近模型潜在维度流形的 OOD 样本。将重构方法的本质定义为具有内在偏置的四元组域转换,仅针对条件数据不确定性的代理变量进行查询。为此,该研究采用语义重构、数据确定性分解及归一化L2距离等策略,显著提升了 OOD 检测性能。READ通过将原始像素的重构误差映射至分类器的潜在空间,将自动编码器整合到基于分类器的 OOD 检测模型中。

我们的REW模块灵感源自 OOD 检测中的基于重建的方法。关键区别在于:本方法中的自编码器能够重建所有区域特征(包括频繁出现的背景区域和罕见出现的前景区域),从而利用其重建误差来构建背景-前景识别的概率分布模型;而 OOD 检测方法则专注于重建图像级别的身份样本。此外,REW通过我们的威布尔模型为每个伪未知对象学习一个表示其为真实对象概率的软标签。相比之下,基于重建的 OOD 检测模型仅将重建误差作为 OOD 分数,用于剔除得分高于预设用户阈值的测试样本。在我们的应用场景中,这种硬阈值策略无法针对每张训练图像进行自适应调整,从而导致较高的假阴性错误——即真实的未知对象被硬阈值误判为背景区域而被过滤掉。

3. 所提方法(略)

所提方法概述为解决标签对已知类别存在偏倚的问题,我们提出的 MEPU 方法首先对无监督区域提议生成器生成的原始伪标签中包含的未知对象进行无监督建模,随后将该方法扩展至这些伪标签未涵盖的新未知对象。

3.1 题目说明(略)

3.2 所提方法概述

为解决已知类别标签偏差问题 ,我们提出的 MEPU 方法首先对无监督区域提议生成器生成的原始伪标签中呈现的未知对象进行无监督建模,随后将该方法扩展至这些伪标签未涵盖的新未知对象。

为此,我们的方法引入了两个核心模块:基于重建误差的威布尔模型(REW)和增强型REW目标定位网络(ROLNet)。REW可视为一种无监督未知目标识别模型,其训练目标是通过无监督方式从常见背景区域中识别各类未知目标,并通过软标签为所有伪标签分配概率值以评估其真实未知目标的可能性。ROLNet则利用REW评分及自训练过程中的无分类 OLN ,有效扩展了未标记区域中未知目标的识别范围。本方法采用FasterRCNN作为基础检测器。下文将对这两个模块进行详细阐述。

3.3 REW:基于重构误差的无监督未知物体识别威布尔模型

现有的无监督区域提议方法可能生成包含多种未知物体的大规模区域,这些与已知实例无重叠的区域提议可作为未知物体的伪标签。然而,这些原始伪标签中可能包含大量背景中的非目标边界框。核心挑战在于如何在避免标签偏差问题的同时,从原始伪标签中准确区分真实未知物体。为此,我们提出的REW模块(基于重构误差的威布尔模型)专门设计用于学习无监督未知物体识别模型,以应对这一挑战。

REW算法的灵感源自一个观察结果:常见的背景区域(如天空、海洋、草原和白色墙面)常出现在不同图像中,并且通常具有重复性、简单的低级特征模式(如颜色、纹理)。相比之下,前景区域由于包含多种物体类别,其视觉模式呈现出更高的多样性。因此,从特征频率域的角度来看,背景与前景区域分别形成了两种不同的分布特征。为此,REW通过基于数据重建的自编码器学习频率信息,并采用先验概率分布来建模两种重建误差分布的差异。鉴于威布尔分布具有优异的广谱拟合能力,该模型被选作REW算法的先验概率分布基础。

ROLNet:基于REW增强的未知物体定位网络——拓展未知物体识别范围

尽管我们提出的REW模块能够有效从无监督区域提议方法生成的伪未知物体标签中识别真实未知物体,但仍存在未被伪标签覆盖的未知物体。当前半监督物体检测方法采用自训练策略将伪标签扩展至未标注数据,但在本研究场景中效果欠佳。传统物体检测器通常采用交叉熵或焦点损失作为提议分类的分类损失函数,这会导致对已知类别的过度偏好。由于分类损失中所有未标注区域均被视作负样本,若最小化此类损失函数会导致未标注区域的物体性评分被压缩至接近零值。

标本模型的网络架构。Faster- RCNN(黄色)与 OLN(绿色)的网络通过统一的 RPN 和RoI Align结构进行整合。

整体检测架构(OLN 和FasterRCNN)首先通过已知物体标签与无监督提议方法生成的未知伪标签进行联合训练。随后采用基于 OLN 的自训练机制优化检测模型。训练后的 OLN 会根据其定位质量分数预测结果生成类别无关型提议,仅选取得分前P%的高分提议作为未知物体的新伪标签。之后使用更新后的未知物体标签对检测模型进行再训练。该自训练流程会重复l次迭代,通过逐步纳入新未知物体来持续优化检测模型性能。

S- OWODB 任务1中不同特征层级重建误差分布的可视化结果。此处展示了针对 FPN 特征图{P3、P4、P5、P6}构建的威布尔模型。

3.4 (略)

3.5 训练和推理(略)

4 实验

4.1 基准

OWOD 基准测试。我们分别使用和提出的两个 OWOD 基准来评估 MEPU 模型。根据的命名规则,这两个基准分别称为S- OWODB(超类分离 OWOD 基准)和M- OWODB(超类混合 OWOD 基准)。如表1所示,COCO数据集的80个类别被划分为四组,每组数据分别对应一个流式任务的数据集。在任务Tt的训练过程中,{ Tτ : τ ≤ t}中的所有类别均为已知类别,而{ Tτ : τ > t}中的所有类别均为未知类别。模型采用仅包含各任务已知类别标注的图像进行增量训练,而非使用完整数据集。

表1:S- OWODB(超类别分离 OWOD 基准)数据集划分(上图)与 MOWODB(超类别混合 OWOD 基准)数据集划分(下图)。

跨数据集评估。 OWOD 基准测试主要关注单一数据集内的开放集检测任务。参照的研究方法,我们还使用 LVIS v0.5和Objects365数据集,在跨数据集场景下评估了检测性能。 LVIS 是一个包含1,203个类别的大型实例分割数据集,其类别分布呈长尾特征;而Objects365则是涵盖365个物体类别的大规模目标检测数据集。这两个数据集均包含80个被视为已知类别的COCO类别,其余类别均标记为未知。我们使用MS COCO训练集训练目标检测器,并在 LVIS 和Objects365的测试集上进行评估,以衡量模型在不同数据集上的泛化性能。

实施细节(略)

方法对比。本研究将我们的方法与两种基准模型——FasterRCNN和Faster- RCNN +微调模型——以及四种最先进的(SOTA)开放世界目标检测器进行对比,包括ORE、OW-DETR、CAT和PROB。Faster- RCNN 仅使用已知类别标签进行训练,而Faster- RCNN +微调模型则采用示例回放技术对Faster- RCNN 进行微调。由于这些模型仅能检测已知目标,其未知目标召回率结果均为零。ORE的能量基未知标签识别器(EBUI)未在此应用,因其需要弱未知标签监督。ORE、 OWDETR 、CAT和PROB的实验结果均引自其原始论文。在跨数据集评估和标签偏差评估实验中,我们还与 SOTA 开放集目标检测模型OpenDet进行了对比。

4.2 与最先进水平的比较

4.2.1 开放世界目标检测性能

表2展示了本方法与当前最先进模型在S- OWODB 和M- OWODB 数据集上对已知类别平均精度(mAP)及未知类别U-召回率的对比结果。本文重点呈现了采用FreeSOLO和选择性搜索作为候选生成器的模型表现,分别标记为 MEPU -FS和 MEPU -SS。总体而言, MEPU -FS与 MEPU -SS两种方法变体在四个任务中均展现出显著优势:无论是在未知物体检测还是已知物体检测方面,其表现均持续优于四大 SOTA 开放世界方法;同时在已知物体检测性能上,其表现与闭集基线模型FasterRCNN+微调方案基本持平。具体结果分析详见下文详细说明。

表2:与S- OWODB(上)和M- OWODB(下)上最先进 OWOD 模型的对比。我们采用已知类别的平均准确率(Known-mAP)和未知类别的召回率(U-Recall)作为闭集和开集评估指标。由于推理过程中不存在未知标注,任务4中未提供U-Recall指标。本文报告了采用两种提案生成方法(FreeSOLO(MEPU -FS)和选择性搜索

未知物体检测。我们的方法 MEPUFS 在检测未知物体方面表现显著优于顶级竞争对手CAT。在S- OWODB 数据集上, MEPU -FS在U召回率指标上分别超越CAT 13.9%(任务1)、12.8%(任务2)和11.1%(任务3)。采用传统提议生成器的另一变体 MEPU -SS同样在U召回率上取得显著提升,相较于CAT分别提高9.3%(任务1)、11.2%(任务2)和9.0%(任务3)。对于M- OWODB 数据集,由于我们有效解决了标签偏差问题, MEPU -FS模型在U召回率上分别提升7.9%(任务1)、11.8%(任务2)和5.7%(任务3)。如表3所示,MEPU -FS在UnknownR@10任务中的表现优于CAT和PROB,准确率提升达6.3%-13.5%,表明我们的模型能以更高精度识别未知物体。 MEPUFS 在UnknownR@100任务中也取得显著提升(3.2%-17.0),充分展现了我们在未知物体检索方面的优势。此外,我们在S- OWODB 任务1-2和 MOWODB 任务2中均实现了WI与A-OSE指标的 SOTA 提升,证明该方法能有效降低未知类别与已知类别之间的混淆度。

已知目标检测领域。四种竞争性方法在开放集检测中牺牲了闭集性能,导致四个任务中的已知平均精度(Known-mAP)出现大幅下降:ORE最多下降7.5%,OW-DETR下降6.3%,CAT下降3.9%,PROB在S- OWODB 任务上下降4.2%。相比之下,我们的方法在所有四个任务中均展现出与闭集基线模型FasterRCNN+微调相当甚至更优的闭集检测能力。本方法在各项任务中持续保持优异表现,主要得益于其无监督未知目标建模技术能够生成精准的伪标签。

增量检测。在任务增量学习中, MEPU -FS在检测已知和当前已知对象方面均展现出优于ORE和OW-DETR的性能。其已知对象mAP指标提升幅度为1.2至6.7,当前已知对象mAP指标提升幅度为7.0至12.6。尽管我们的模型在M- OWODB 任务3-4上的表现相对较低,但在其他任务中仍优于CAT和PROB。这些结果凸显了我们的方法在获取新知识方面的能力显著增强而不是灾难性遗忘先前获得的知识。

4.2.2 跨数据集泛化能力 为评估模型在更贴近实际场景的大规模数据集上的泛化能力,模型在包含80个已知类别的COCO train2017数据集上进行训练,并在 LVIS 和Objects365的验证集上进行评估。 LVIS 和Objects365中超出COCO 80个类别的类别均被视为未知物体类别。表4展示了本研究提出的 MEPU -FS方法、 MEPUFS 方法、基线方法Faster- RCNN 、 SOTA OSOD 模型OpenDet以及 SOTA OWOD 模型CAT的实验结果。在两个数据集上, MEPU -FS方法在R@10、R@30和R@100指标上均优于OpenDet,证明了其在识别跨数据集未知物体方面的优势。此外, MEPU -FS在 LVIS 数据集的Known-mAP指标上较OpenDet提升2.3分,在Objects365数据集上提升1.7分,表明其在跨数据集场景下对已知物体的检测泛化能力显著更强。

表4:跨数据集泛化结果。

 

4.2.3 标签偏差评估 为深入分析第1节讨论的标签偏差问题,我们提出了一种新的数据集划分方案,将COCO数据集划分为三个部分:已知类、相关未知类和无关未知类(如表5所示)。其中‘相关未知类’中的类别与已知类别存在语义关联,例如包含五个已知动物类别及另外五个属于‘相关未知类’的类别。‘无关未知类’则归属于与‘已知类’不同的超类别。模型仅使用COCO train2017数据集中的已知对象标注进行训练,并在COCO val2017数据集上进行测试,以评估已知类、相关未知类及无关未知类的检测性能。

表5:用于评估标签偏倚问题影响的MS COCO数据集划分方案。括号内数字表示各超类别所属类别数量。
表6:为处理标签偏倚问题而提出的数据集分割结果。

表6展示了我们的 MEPU -FS、 MEPUSS 、最具竞争力的方法OpenDet以及CAT在所提出的数据划分上的评估结果。所有模型均使用 MSCOCO 数据集上的已知类别进行训练,并分别在COCO val2017数据集的已知类别、相关未知类别及无关未知类别上进行测试。可以看出,OpenDet在“相关未知”类别中的表现与 MEPU -FS相当(例如R@10任务中分别为27.0% vs 27.8%),但由于其严重的标签偏差问题,无法检测出与已知对象无语义关联的未知对象。而我们的 MEPU -FS能有效消除标签偏差(例如R@10任务中“无关未知”类别准确率提升11.3个百分点),这是因为我们基于已知类别与未知类别之间的共享区域特征频率来识别未知对象,从而显著提升了模型对未知对象(尤其是与已知类别无语义关联的对象)的泛化能力。

4.3 消融实验:REW与ROLNet模块分析。我们在COCO数据集上对两个核心模块REW和ROLNet的贡献度进行了评估。表7展示了S- OWODB 任务1中已知真值平均精度(Known-mAP)、未知真值召回率(Unknown R@10)、召回率(R@30)及召回率(R@100)的实验结果。若缺少这两个组件,该方法等同于直接使用无监督提议方法生成的候选框作为伪标签训练Faster- RCNN 。这类伪标签通常存在较高误差,导致检测器难以区分前景与背景区域,从而影响闭集和开集检测性能。REW显著提升了已知真值平均精度(FS方法提升+2.5,SS方法提升+3.6),并有效改善了未知真值召回率表现,特别是在Unknown R@10指标上(FS方法提升+2.1,SS方法提升+8.5),这主要得益于其从噪声伪标签中准确识别真实未知目标的能力。ROLNet通过扩展不完整伪未知标签,主要提升了Unknown R@100指标(FS方法提升+6.6,SS方法提升+15.2)。通过整合REW与ROLNet构建完整模型,我们实现了对真实未知目标的有效识别,并精准扩展了不完整未知标签,从而进一步提升了整体检测性能。

表7:我们的完整模型(阴影部分)与其变体对比。

区域提议生成器的重要性分析。我们还评估了无监督提议生成器对模型的贡献。如表8所示,研究采用了五种无监督提议生成方法,并与不使用任何提议生成器的基线方法进行对比。这五种方法包括基于深度学习的DETReg方法、无学习方法(EdgeBoxes和测地线对象提议(GOP)),以及FreeSOLO和Selective Search。所有提案生成器通常比基线方法产生更优结果,显著提升了未知物体检测性能,尤其在R@10指标上表现突出(例如使用FreeSOLO时提升幅度达+8.8)。值得注意的是,尽管选择性搜索(Selective Search)和目标区域(GOP)等传统方法大多生成定位精度较低的粗略边界框,但由于我们的REW模块能够从噪声标签中识别真实未知物体,这些方法仍能提升最终性能。

超参数分析(略)

基于重建误差的 OOD 检测方法与REW方法对比。以往基于重建的 OOD 检测模型通常采用重建误差作为 OOD在测试过程中,系统会筛选并剔除所有得分超过预设阈值的样本。表10展示了我们的REW模型(软标签标注)与基础模型(基于原始重建误差的 OOD 检测)的对比结果。 OOD 检测器的阈值设定为95%真阳性率(前景为阳性类别)。我们的REW模型在已知平均精度(mAP)和未知召回率方面均优于基础模型,原因在于:(i)基础模型采用非自适应硬阈值处理时,部分真实未知物体可能被过滤掉,导致高假阴性错误率;(ii)而REW模型通过威布尔分布建模,实现了对背景区域中未知物体的自适应识别,从而显著提升了未知物体识别性能。

表10:我们的REW模型(软标签)与基础模型(硬阈值)对比

REW与ROLNet的替代设计方案。我们还在S- OWODB 任务1上评估了REW和ROLNet的不同变体,结果详见表11。针对REW,我们测试了用在线训练策略替代离线训练的有效性——即采用相同主干网络同时训练自动编码器与检测模型,而非使用独立的重建主干网络;对于ROLNet,另一种替代方案是直接利用 RPN 预测结果生成伪标签而非 OLN 。实验结果表明,相较于默认模型 MEPU -FS,REW采用在线训练会导致性能下降(已知类别mAP降低0.3,未知类别R@100降低4.1),这是因为目标检测下游任务会影响密集特征的语义表达能力(例如对已知物体特征存在偏好倾向),该现象亦见于文献。当采用不使用 OLN 的自训练方式时,未知类别R@100下降幅度达6.1。这种性能下降可归因于Faster- RCNN 的分类损失会严重抑制未标注区域的评分,导致检测扩展至未标注物体时面临挑战。

表11:与替代性REW及ROLNet设计方案的对比。采用REW中的在线训练或ROLNet中的基于 RPN 的自训练方式。

定性研究结果(略)

5 结论

本研究提出了一种 MEPU 方法,通过无监督方式识别未知物体并迭代扩展已识别的伪未知物体,从而解决 OWOD 中的标签偏差问题。具体而言,该方法首先利用无监督区域提议方法生成的伪标签对未知物体进行无监督识别,随后扩展未被伪标签覆盖的新未知物体。这两个任务通过REW和ROLNet两个核心组件实现。实验表明,我们的 MEPU 方法在S- OWODB 和M- OWODB 数据集上均展现出卓越的未知物体检测性能。此外,该方法还在 LVIS 和Object365数据集的跨数据集实验中,该模型的表现优于现有模型。尽管已知物体与未知物体之间的检测性能差距仍然显著,但我们的研究在面向实际应用的 OWOD 方面取得了进展。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐