这篇论文是2019年语义分割领域的最新成果,采用双流CNN和ASPP进行语义分割处理,在细小的物体上有着很大的提升。

原文链接:https://arxiv.org/abs/1907.05740

项目:https://nv-tlabs.github.io/GSCNN/

Github:https://github.com/nv-tlabs/GSCNN

Abstract

当前最先进的深度卷积神经网络的图像分割将颜色、形状和纹理信息都放在一起处理。由于它们包含与识别有关的非常不同类型的信息导致效果并不理想。在这里我们提出一种双流CNN用于语义分割,将处理形状信息的单独出来作为一个流shape stream,与经典流classical stream平行处理。这个网络的关键是连接两个流的中间层是一种新的门类型。具体来说,我们使用经典流中的高级激活来对形状流中的低层激活进行门化,从而有效地消除噪声并帮助shape stream聚焦于处理相关的边界相关信息。实验证明在更瘦更小的物体上显著地提升了物体和周围的形状预测,并在Cityscapes数据集上采用mIoU和F-score指标评价该网络,在目前最先进的网络上高出2%和4%。项目地址:https://nv-tlabs.github.io/GSCNN/

Introduction

语义分割在计算机视觉领域的应用范围很广,在几乎所有的分割测试中CNN都极大地提升了分割的准确率。将用于分类的CNN用于分割的一种标准方法是将全连接层转换为卷积层,如FCN。然而,这种操作也有着明显的缺点,比如会损失输出的分辨率。DeepLab等网络提出了一些方法恢复输出的分辨率。

在DCNN中同时处理颜色、形状和纹理信息有着明显的缺点,于是提出一种双流CNN结构,其中一个支流专门用于处理形状信息,叫做shape stream,而另一流则为经典的CNN流,即classical stream。两个支流在最顶层之前不做任何信息的融合。

这个网络的关键是两个直流在交互的时候采用了一种新的门类型,利用包含在经典流中的高级信息来在其非常早期的处理阶段对形状流中的激活进行降噪处理。这样做使得形状流能专注于处理形状信息,并能在完整的分辨率上操作。为了实现形状信息被定向到所需的流,这里采用语义边界损失来监督它。文章进一步开发了一种新的损失函数,它拟合预测的结果与GT语义边界对齐。新架构网络称为GSCNN。

网络的classical stream能够被任何经典CNN替换,在论文中尝试了ResNet-50,ResNet-101和WideResNet。实验证明该网络比最先进的DeepLab V3+的mIoU高出1.5%,F-boundary-score高出4%,并在细小物体的预测上mIoU有着7%的提升。论文进一步评价了距离相机不同远近的物体的性能,在最远的物体上有6%的提升。

Related Work

语义分割:一些先进的语义分割网络的发展都是基于CNN的,后面阐述了CNN的发展过程。

多任务学习:本文的主要目标不是训练多任务网络,而是实施一种利用分割和边界预测任务之间的二元性的结构化表示。

门卷积:源自语言模型,这里借鉴到卷积中。

Gated Shape CNN

这一部分主要介绍网络的结构。如结构图所示,网络的两个支流的后面融合模块集成。第一支流regular stream(即上文中classical stream)就是标准的CNN分割网络,第二支流shape stream用来处理语义边界的形状信息。通过仔细设计的门卷积层(GCL)和局部监督,强制成形流只处理与边界有关的信息。

Regular stream:可以采用由VGG/ResNet等改编的全卷积网络,论文中采用的是类ResNet网络。

Shape stream:通过多个残差块和GCL交叉处理。

Fusion module:采用ASPP融合两个支流,允许我们保存多尺度上下文信息,并且被证明是现有技术语义分割网络中的基本组件。

Experiment Results

采用DeepLab V3+作为基准,GSCNN的主体采用ResNet-50、ResNet-101和WideResNet,数据集采用Cityscapes,评价指标采用mIoU(用于评价预测区域的准确率)、F-score(用于评价边界)和基于距离的mIoU。

定性评价:

在Cityscapes数据集test set上的分割结果
在Cityscapes test set上的分割效果
在Cityscapes test set上预测的高质量边界

定量评价:

表1中GSCNN与LRR/DeepLab V2/DeepLab V3+等网络的分割性能进行对比,可以看到GSCNN在mIoU性能上要高出2%左右,特别是细小物体上有显著的提升,如traffic signs, traffic lights, poles, motorcycles等。

表2中GSCNN与DeepLab V3+的边界预测准确率F-score进行对比,阈值分别设置为12px~3px,在最严格的的要求上有着4%的提升。

不同裁剪因子的基于距离的评价

上图展示了不同距离的mIoU评价,距离越远(0~400),其mIoU提升的效果越高,在距离400左右mIoU提升了接近6%。

 

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐