金字塔场景解析网络PSPNet：打通全局上下文，屠榜语义分割三大基准

weixin_46200189

351人浏览 · 2026-04-22 18:30:00

weixin_46200189 · 2026-04-22 18:30:00 发布

论文基本信息

标题：Pyramid Scene Parsing Network
会议：CVPR 2017
单位：香港中文大学、商汤科技
代码：https://github.com/hszhao/PSPNet
论文：https://arxiv.org/pdf/1612.01105.pdf

前言

在语义分割领域，FCN虽然实现了端到端像素级预测，但在复杂场景中经常闹笑话：把河里的船认成汽车、把楼认成摩天楼、小目标枕头直接忽略。核心原因就是缺乏全局上下文信息。

PSPNet横空出世，提出金字塔池化模块（PPM），把不同尺度、不同区域的全局特征融合进来，再搭配深度监督损失稳定训练，直接拿下2016年ImageNet场景解析、PASCAL VOC 2012、Cityscapes三个榜单第一，单模型mIoU高达85.4%，成为语义分割史上的里程碑模型。

在这里插入图片描述

图 1.ADE20K 数据集中复杂场景的示例图。

一、FCN做场景解析的三大致命问题

作者在ADE20K数据集上分析FCN预测结果，总结出三大通病：

关系不匹配：缺乏场景常识，汽车不会出现在河里，FCN却把船认成汽车
类别混淆：墙/房子/大楼/摩天楼外观相似，FCN会给同一个物体标多个类
小目标忽略：路灯、招牌、枕头等不显眼物体，FCN容易分类错误

图 2.我们在 ADE20K [43] 数据集上观察到的场景解析问题。第一行显示了关系不匹配的问题——汽车很少会浮在水面上，而船只则不然。第二行展示了混淆的类别，其中“建筑物”类别很容易被误认为是“摩天大楼”。第三行展示了不显眼的类别。在这个例子中，枕头在颜色和质地方面与床单非常相似。这些不显眼的物体很容易被全卷式网络（FCN）错误分类。

图片分析：FCN预测结果错误百出，PSPNet借助全局上下文完美修正，精准识别物体类别与边界。

二、核心创新：金字塔池化模块PPM

2.1 设计思路

CNN理论感受野远大于实际感受野，无法有效捕捉全局信息。全局平均池化又过于简单，会丢失空间关系。

金字塔池化模块：对特征图做四种不同尺度的池化，融合全局+局部+不同区域的上下文信息。

2.2 结构与计算流程

输入：ResNet+空洞卷积输出的特征图，尺寸为输入图像的1/8
四层金字塔池化：bin大小分别为1×1、2×2、3×3、6×6
每层经过1×1卷积降维，减少通道数
上采样到原特征图尺寸
拼接原始特征+四层金字塔特征，得到融合全局信息的最终特征

在这里插入图片描述

图 3.我们所提出的 PSPNet 的概述。给定一个输入图像（a），我们首先使用卷积神经网络（CNN）获取最后一层卷积层的特征图（b），然后应用金字塔解析模块来获取不同的子区域表示，接着经过上采样和拼接层来形成最终的特征表示（c），该表示包含了局部和全局的上下文信息。最后，该表示被输入到卷积层中以获得最终的像素级预测（d）。

图片分析：输入图像→CNN提取特征→金字塔池化融合多尺度全局特征→卷积输出像素级预测。

2.3 数学表达

最终特征 $F_{final}$ 由原始特征 $F_{0}$ 与金字塔各层特征 $F_{1},F_{2},F_{3},F_{4}$ 拼接而成：
$F_{final} = Concat(F_{0}, F_{1}, F_{2}, F_{3}, F_{4})$

$F_{0}$ ：CNN主干输出的原始特征
$F_{1}−F_{4}$ ：金字塔四层池化+降维+上采样后的特征
$C o n c a t$ ：通道维度拼接（通俗解释：把不同尺度的特征叠在一起，让模型同时看到全局和局部）

三、训练技巧：深度监督损失

深层ResNet训练困难，作者提出辅助损失分支：

在ResNet第4阶段后添加辅助分类器
主损失+辅助损失共同优化网络
辅助损失权重设为0.4
测试时丢弃辅助分支，不影响推理速度

在这里插入图片描述

图 4.ResNet101 中辅助损失的示例。每个蓝色方框代表一个残差块。辅助损失是在第 4b22 个残差块之后添加的。

图片分析：蓝色块为残差块，res4b22后添加辅助损失，帮助梯度回传，让深层网络更好收敛。

损失函数：
$Loss = Loss_{main} + 0.4 × Loss_{aux}$

$Loss_{main}$ ：主分支分割损失
$Loss_{aux}$ ：辅助分支分割损失
0.4：辅助损失权重（实验最优值）

四、核心代码实现（PyTorch）

4.1 金字塔池化模块PPM

import torch
import torch.nn as nn
import torch.nn.functional as F

class PyramidPooling(nn.Module):
    def __init__(self, in_channels, pool_sizes, out_channels):
        super().__init__()
        # 1×1卷积降维
        self.convs = nn.ModuleList()
        for pool_size in pool_sizes:
            self.convs.append(
                nn.Sequential(
                    nn.AdaptiveAvgPool2d(pool_size),
                    nn.Conv2d(in_channels, out_channels, 1, bias=False),
                    nn.BatchNorm2d(out_channels),
                    nn.ReLU(inplace=True)
                )
            )

    def forward(self, x):
        features = [x]
        h, w = x.shape[2:]
        for conv in self.convs:
            out = conv(x)
            # 上采样到原尺寸
            out = F.interpolate(out, size=(h, w), mode='bilinear', align_corners=False)
            features.append(out)
        # 拼接所有特征
        return torch.cat(features, dim=1)

# 初始化PPM：输入通道2048，池化尺度[1,2,3,6]，降维到512
ppm = PyramidPooling(in_channels=2048, pool_sizes=[1,2,3,6], out_channels=512)

4.2 PSPNet主干

class PSPNet(nn.Module):
    def __init__(self, num_classes):
        super().__init__()
        # 假设使用ResNet101作为主干
        self.resnet = resnet101(pretrained=True)
        # 金字塔池化：2048→4×512，拼接后共2048+2048=4096通道
        self.ppm = PyramidPooling(2048, [1,2,3,6], 512)
        # 最终分类卷积
        self.cls_conv = nn.Sequential(
            nn.Conv2d(4096, 512, 3, padding=1, bias=False),
            nn.BatchNorm2d(512),
            nn.ReLU(inplace=True),
            nn.Dropout(0.1),
            nn.Conv2d(512, num_classes, 1)
        )
        # 辅助损失分支
        self.aux_conv = nn.Sequential(
            nn.Conv2d(1024, 256, 3, padding=1, bias=False),
            nn.BatchNorm2d(256),
            nn.ReLU(inplace=True),
            nn.Dropout(0.1),
            nn.Conv2d(256, num_classes, 1)
        )

    def forward(self, x):
        # 主干前向
        x = self.resnet.conv1(x)
        x = self.resnet.bn1(x)
        x = self.resnet.relu(x)
        x = self.resnet.maxpool(x)
        x = self.resnet.layer1(x)
        x = self.resnet.layer2(x)
        x = self.resnet.layer3(x)
        aux = self.resnet.layer4(x)  # 辅助分支特征
        x = self.resnet.layer5(aux)  # 主分支特征
        
        # 金字塔池化
        x = self.ppm(x)
        out = self.cls_conv(x)
        out = F.interpolate(out, size=x.shape[2:], mode='bilinear', align_corners=False)
        
        if self.training:
            aux_out = self.aux_conv(aux)
            aux_out = F.interpolate(aux_out, size=x.shape[2:], mode='bilinear', align_corners=False)
            return out, aux_out
        return out