【计算机视觉】特征融合12种经典魔改方法汇总，附配套模型和代码

文章共2,820字 · 阅读需要大约10分钟

一键AI生成摘要，助你高效阅读

问答

旅途中的宽~

4757人浏览 · 2023-12-02 20:03:50

旅途中的宽~ · 2023-12-02 20:03:50 发布

文章目录

一、Densenet
二、Resnet
三、CBP
四、SENet
五、GCNet
六、DANet
七、PANet
八、FPN
九、ASPP
十、SPP-net
十一、PSP-net
十二、ECA-Net

特征融合（Feature Fusion）是深度学习中的一种重要技术，它可以帮助模型更好地理解数据的内在结构和规律，提高模型的性能和泛化能力。另外，特征融合还可以提高模型的分类准确率，减少过拟合风险，帮助我们更好地利用数据集。

目前已有的特征融合方法已经取得了显著的进展，但仍然存在一些挑战和问题。为了进一步探索新的特征融合方法，以更好地解决上述问题，研究者们提出了许多优秀的魔改方法。

一、Densenet

论文：Densely Connected Convolutional Networks

密集连接的卷积网络

方法简介：DenseNet是一种连接方式不同的卷积网络。在DenseNet中，每一层都直接连接到其他所有层，这使得信息传递更加直接和高效。相比之下，传统的卷积网络只有相邻层之间有连接。DenseNet有几个优点：它可以缓解梯度消失问题，增强特征传播，鼓励特征重用，并且需要的参数更少。在四个不同的基准任务上，DenseNet的表现都超过了现有的技术，同时它需要更少的计算资源。

在这里插入图片描述

二、Resnet

论文：Deep Residual Learning for Image Recognition

用于图像识别的深度残差学习

方法简介：论文介绍了深度残差学习框架，它使得训练深度神经网络更加容易。通过将层学习为相对于输入的残差函数，而不是无参考函数，该框架使得深度网络更易于优化，并且能够从增加的深度中获得更高的准确率。在ImageNet数据集上，这种深度残差网络的表现非常好，并且比以前的网络更深。此外，这种网络还在其他竞赛任务中获得了第一名。

在这里插入图片描述

三、CBP

论文：Compact Bilinear Pooling

紧凑型双线性池化

方法简介：双线性模型在很多视觉任务上效果很好，但特征维度高不实用。论文提出了两种低维的双线性表示，和原来的一样有效，但只有几千维度，更适合后续分析。这种表示能让误差反向传播，优化整个视觉识别系统。作者通过创新的方法分析双线性池化得到这种表示，它为研究其他紧凑池化方法提供了新思路。实验证明，这种表示对图像分类和小样本学习有效。

在这里插入图片描述

四、SENet

论文：Squeeze-and-Excitation Networks

挤压和激励网络

方法简介：挤压和激励网络是卷积神经网络的一个关键部分，它通过挤压和激励来调整网络中的信息流。挤压操作提取网络中的空间信息，激励操作则根据这些信息调整网络中的通道权重。这种网络结构能够有效地提高网络的表现，尤其是在处理图像分类等任务时。挤压和激励网络可以与现有的最先进的CNN结合使用，以实现更高的性能提升。

在这里插入图片描述

五、GCNet

论文：Global Context Network

全局上下文网络

方法简介：Non-Local Network 是一种能捕捉图像中长距离依赖性的方法，但它的全局上下文对不同查询位置都是相同的。因此，作者创建了一个更简单的网络，它基于查询无关的公式，保持了 Non-Local Network 的准确性，但计算量更少。另外，作者还改进了 Non-Local 块的变换函数，用两层瓶颈替换了原本的一层，进一步减少了参数数量。由此产生的全局上下文 (GC) 块能以轻量级方式有效地模拟全局上下文，并可应用于主干网络的多个层次以形成全局上下文网络 (GCNet)。

在这里插入图片描述

六、DANet

论文：Dual Attention Network for Scene Segmentation

用于场景分割的双注意力网络

方法简介：论文提出了一种叫做双注意力网络（DANet）的新网络，用于解决场景分割任务。DANet通过两种注意力模块，一是位置注意力模块，二是通道注意力模块，来捕获丰富的上下文依赖关系。这两种模块分别关注空间维度和通道维度上的依赖关系。DANet能自适应地融合局部特征和全局依赖关系，从而提升特征表示能力，得到更精确的分割结果。

在这里插入图片描述

七、PANet

论文：Path Aggregation Network for Instance Segmentation

用于实例分割的路径聚合网络

方法简介：论文提出了一种PANet网络，用于改进基于提议的实例分割框架的信息流。PANet通过自下而上的路径增强来增强整个特征层次，以在较低层中获得精确的定位信号，从而缩短了信息路径。它还提出了自适应特征池化，将特征网格和所有特征级别与提议子网络进行连接，使每个特征级别的有用信息能够直接传播到后续的提议子网络。此外，还创建了一个捕捉每个提议不同视图的互补分支，以进一步改善掩膜预测。这些改进易于实现，且几乎没有额外的计算开销。

在这里插入图片描述

八、FPN

论文：Feature Pyramid Networks for Object Detection

用于目标检测的特征金字塔网络

方法简介：特征金字塔是检测不同尺度物体的识别系统中的基本组成部分。但最近的深度学习目标检测器已经避免了金字塔表示，部分原因是它们计算和内存密集。本文利用深度卷积神经网络固有的多尺度、金字塔层次结构，以边际额外成本构建特征金字塔。从上到下的架构与侧向连接相结合，可在所有尺度上构建高级语义特征图。这种架构称为特征金字塔网络（FPN），作为通用特征提取器在几个应用中表现出显著改进。

在这里插入图片描述

九、ASPP

论文：DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

使用深度卷积网络、稀疏卷积和全连接CRF进行语义图像分割

方法简介：论文提出了DeepLab系统，用于解决语义图像分割任务。主要贡献有三点：首先，强调了稀疏卷积（Atrous Convolution）在密集预测任务中的重要性，它允许控制特征响应的计算分辨率，并有效扩大滤波器视野；其次，提出了稀疏空间金字塔池化（ASPP），以多尺度稳健分割对象；最后，结合DCNNs和概率图模型的方法，提高对象边界的定位精度。

在这里插入图片描述

十、SPP-net

论文：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

用于视觉识别的深度卷积网络中的空间金字塔池化

方法简介：现有的深度卷积神经网络（CNN）需要固定大小（例如224x224）的输入图像，论文为网络配备了另一种池化策略——“空间金字塔池化”，以消除上述要求。这种新的网络结构称为SPP-net，可以生成固定长度的表示，而无需考虑图像的大小/比例。金字塔池化对物体形变具有鲁棒性。由于这些优点，SPP-net总体上应改进所有基于CNN的图像分类方法。

在这里插入图片描述

十一、PSP-net

论文：Pyramid Scene Parsing Network

⽤于语义分割的⾦字塔场景识别⽹络

方法简介：场景识别是一项具有挑战性的任务，因为它需要处理各种不同的场景和词汇。本文提出了一种新的方法，通过使用不同区域基于上下文的聚合和金字塔池化模块，以及提出的金字塔场景识别网络（PSPNet），来提高场景识别的性能。这种方法能够有效地利用全局上下文信息，并产生高质量的识别结果。PSPNet提供了一个优越的框架，用于像素级别的预测任务。

在这里插入图片描述

十二、ECA-Net

论文：ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks

深度卷积神经网络的高效通道注意力

方法简介：论文介绍了Efficient Channel Attention (ECA)模块，这个模块能够提升深度卷积神经网络（CNN）的性能，同时保持较低的模型复杂度。它通过避免维度降低和采用局部通道交互策略来实现这一点。与ResNet50相比，ECA模块的参数和计算量更少，但性能提升超过2%。实验结果表明，ECA模块在图像分类、目标检测和实例分割等任务中表现出了更高的效率和良好的性能。

在这里插入图片描述