深度学习-路径聚合网络(PANet网络)
1、概括
信息在神经网络中的传播方式非常重要。为了促进信息的流动,提出了一种基于提议的实例分割框架下的路径聚合网络Path Aggregation Network (PANet)。具体地说,我们通过自底向上的路径增强,利用准确的低层定位信号增强整个特征层次,从而缩短了低层与顶层特征之间的信息路径。提出了自适应特征池adaptive feature pooling,它将特征网格和所有的特征层连接起来,使每个特征层中的有用信息直接传播到下面的建议子网络。为了进一步改进掩码预测,创建了一个互补的分支,用于为每个提案捕获不同的视图。
2、介绍
实例分割Instance segmentation是最重要、最具挑战性的任务之一。它的目的是预测类标签和像素化实例掩码来定位图像中呈现的不同数量的实例。这项任务广泛地惠及自动驾驶汽车、机器人、视频监控等等。
在深度卷积神经网络的帮助下,提出了几种分割框架,其中性能增长较快的是(VOC) 。掩码R-CNN是一种简单有效的实例分割系统。基于Fast/Faster R-CNN,采用全卷积网络(full tional network, FCN)进行掩码预测,并进行box回归和分类。为了获得较高的性能,利用特征金字塔网络(feature pyramid network, FPN)提取网络内的特征层次结构,通过对具有横向连接的自顶向下路径进行扩展来传播语义上较强的特征。
3、特征金字塔网络(FPN)
如下图conv5、conv4、conv3、conv2,分别对应高层、中层、底层特征,这里将其特征融合得到M5、M4、M3、M2特征图最终得到的P2-5等特征图可以用于预测。
FPN就是这样,自顶向下的模式,将高层特征传下来。而底层特征却无法影响高层特征,并且FPN中的这种方法中,顶部信息流往下传,是逐层地传,计算量比较大。PANet解决了这一问题。
4、PANet
PANet引入了自底向上的路径,使得底层信息更容易传递到高层顶部。左边图(a),V3中讲过,特征融合,featureMap越小,感受野越大;可能要走例如100层,才能遍历玩ResNet。现在假如要将底层特征传递到特征图顶部,如图a红线,如果是采用上述FPN算法,可能要走很多层,增加了很多计算量。
而PANet采用的是:在进行自顶向下的特征融合后(实际上,PANet无论是bottom-top,还是top-bottom进行特征信息传递,都是在“从原始网络中提取低、中、高层特征图之后”进行的),然后再进行自下向上(这里遍历的最终的特征图P2-5,而不是原始100多层特征图)的特征融合,如图(b)绿色线条,这样特征传递需要“穿越”的特征图数量大大减少,几层就到了。
下图,第三列中表示自顶向下(top-bottom)信息传递,第三列表示自下向上(bottom-top)信息传递。
YOLOV4对PAN(PANet)还有一点小改进,使用张量连接(concat)代替了原来的捷径连接(shortcut connection,残差连接里面有)。YOLOV4中再特征融合时不是加法,而是特征堆叠。
5、改进点
PANet是18年的一篇CVPR,作者来自港中文,北大,商汤与腾讯优图,PANET可看作Mask-RCNN+,是在Mask-RCNN基础上做的几处改进。
论文地址:https://arxiv.org/abs/1803.01534
论文出发点:当前实例分割最佳模型Mask-RCNN的信息传播还不够充分,具体地,低层特征到高层特征的传递路径过长,FPN中每个proposal只负责金字塔特定的一层,掩码预测只基于单一视角。
论文创新:
- 自底向上的路径增强,为了缩短信息传播路径,同时利用低层特征的精准定位信息
- 动态特征池化,每个proposal利用金字塔所有层的特征,为了避免proposal的随意分配
- 全连接层融合,为了给掩码预测增加信息来源
详细解释
- 自底向上路径增强
如上图中所示,FPN是自顶向下,将高层的强语义特征传递下来,对整个金字塔进行增强,不过只增强了语义信息,对定位信息没有传递,而本文就是针对这一点,在FPN的后面添加一个自底向上的金字塔,可以说是很皮了。这样的操作是对FPN的补充,将低层的强定位特征传递上去,个人称之为”双塔战术“。 - 动态特征池化
FPN中的每个proposal根据其大小分配给不同的特征层,但这样可能不够好,原因如下,一是按照大小来分配本身有缺陷,大小相近的proposal可能分配到相邻的层,二是特征的重要程度可能与层级没什么关系,这是论文中的解释,我觉得这两点无关痛痒,我认为这个特征池化层的好处关键是每个proposal聚合了多层的信息,对分类及定位更加有利。至于融合的细节,也就是C中的小圆圈,可参考下图
金字塔上四个灰色区域对应的是同一个proposal,根据特征图相应缩放,分别取到特征后进行融合,上图只是box分支的融合图,掩码分支的论文中没有画出来,但原理是一样的,拿上图来说,四个特征图分别全连接,然后融合,融合操作或者采取max,或者sum,或者相乘。 - 全连接层融合
全连接层具有不同于CNN的结构,CNN产生的特征图上每个像素点来自同一个卷积核,也就是常说的参数共享,另外,卷积核的大小往往为33,55,7*7,也就是说采集的是局部的信息。
全连接层其实可由卷积实现,可看作感受野为整个特征图的卷积核,所以全连接层是感受野更大的卷积,另外,这里的卷积参数不共享,每个像素点拥有一个卷积核,所以区别在于感受野和参数是否共享,文中说全连接层是位置敏感的,这一点我还没看出来,我个人觉得在感受野上的补充应该是一个重要的功能,至于对位置更加敏感,有利于定位,我无法理解。
更多推荐
所有评论(0)