摘要

本周主要学习 Convolutional Neural Networks(卷积神经网络,CNN)的基础原理与典型结构。卷积神经网络是深度学习中处理图像任务最经典的模型之一,它通过局部感受野、参数共享和分层特征提取机制,更高效地处理具有空间结构的数据。

学习内容包括卷积运算的基本思想、Padding(填充)与 Stride(步长)对输出结果的影响、Pooling(池化)在降维和保留关键特征中的作用、多通道图像与多卷积核的处理方式,以及卷积网络如何逐层从像素中提取边缘、纹理和更高层语义特征。最后结合图像分类任务,理解卷积神经网络在计算机视觉中的实际价值。

Abstract

This weekly report introduces the foundational ideas behind convolutional neural networks. CNNs are highly effective for image-related tasks because they exploit local connectivity, parameter sharing, and hierarchical feature extraction. The learning process this week covers convolution, padding, stride, pooling, multi-channel inputs, and the layered structure of CNNs. These mechanisms allow a model to transform raw image pixels into increasingly meaningful representations for tasks such as image classification.

1 卷积神经网络的基本思想

Convolutional Neural Network(卷积神经网络)是一类专门用于处理图像等网格状数据的神经网络结构。与全连接网络相比,卷积神经网络不再让每一个神经元都连接到上一层的所有输入,而是只关注局部区域。这种做法更符合图像的实际结构,也能显著减少参数数量。

图像中的像素并不是彼此孤立的。相邻像素往往共同构成边缘、纹理和形状,因此模型只需要在局部范围内提取模式,就可以逐步理解整张图像。卷积神经网络正是基于这种思想,通过多个卷积层不断提取局部特征,并在更深层将这些局部特征组合成更复杂的表示。

卷积神经网络的另一个重要特点是 Parameter Sharing(参数共享)。同一个卷积核会在整张图像上重复滑动,并用同一组参数检测不同位置上的相似模式。这样不仅降低了模型复杂度,也让模型具备一定的平移不变性。

2 卷积运算与特征图

2.1 卷积的含义

Convolution(卷积)可以理解为一个小型滤波器在输入图像上滑动,并在每个位置与局部区域做逐元素乘法和求和运算。这个滤波器通常被称为 Kernel(卷积核)或 Filter(滤波器)。

如果卷积核的参数被设计或学习成某种模式,它就能够对输入中的特定特征产生强响应。例如,某些卷积核更容易检测水平边缘,另一些则更容易检测垂直边缘或局部纹理。卷积完成后得到的输出称为 Feature Map(特征图),它表示该卷积核在图像不同位置上对某种特征的响应强弱。

2.2 Padding 与 Stride

Padding(填充)是指在输入图像边界外补充额外像素,常见做法是补零。填充的主要作用有两个:

  • 避免卷积后图像尺寸快速缩小。

  • 保留边缘区域的信息。

Stride(步长)是指卷积核每次滑动时移动的距离。步长越大,输出特征图尺寸越小,计算量也越低;步长越小,模型保留的信息通常越丰富。

因此,卷积层的输出大小通常由输入尺寸、卷积核大小、填充和步长共同决定。合理设置这些参数,可以在信息保留和计算成本之间取得平衡。

3 池化操作

Pooling(池化)用于对特征图进行下采样,从而减少空间尺寸并保留重要特征。池化层通常不会引入需要学习的参数,而是按照固定规则对局部区域进行聚合。

最常见的是 Max Pooling(最大池化),它会从局部区域中选出最大值。由于最大值通常代表该区域某个特征最强的响应,因此最大池化能够在一定程度上保留最显著的信息。另一种是 Average Pooling(平均池化),它计算局部区域的平均值,更强调整体趋势。

池化的主要作用包括:

  • 降低特征图尺寸,减少计算量。

  • 压缩表示,缓解过拟合风险。

  • 在小范围位移下保持特征的稳定性。

卷积层负责提取特征,池化层则帮助模型对这些特征进行压缩与筛选。两者配合,使卷积网络能够逐渐形成更加紧凑、稳定的表示。

4 多通道图像与多卷积核

实际图像往往不是单通道的灰度图,而是包含 RGB(红绿蓝)三个通道的彩色图像。因此,一个卷积核在处理彩色图像时,也需要在深度方向覆盖所有输入通道。换句话说,卷积核不仅有高度和宽度,还具有与输入通道数一致的深度。

卷积计算时,卷积核会同时与各个通道对应区域进行运算,然后将结果相加,得到一个输出值。如果使用多个不同的卷积核,就会得到多个不同的特征图。每个卷积核负责检测一种不同类型的模式,因此多个卷积核能够让模型从同一张图像中学习多种特征。

随着网络加深,后续卷积层接收的输入不再是原始像素,而是前一层生成的多张特征图。这样,模型就能从简单边缘逐步学习到更复杂的纹理、局部结构和物体组成部分。

5 卷积网络的层次结构

卷积神经网络通常由多个 Convolution Layer(卷积层)、Activation Function(激活函数)、Pooling Layer(池化层)以及最后的 Fully Connected Layer(全连接层)组成。

一个典型流程通常是:

  • 输入图像进入卷积层提取局部特征。

  • 激活函数引入非线性能力。

  • 池化层压缩特征图,减少空间尺寸。

  • 多个卷积块重复堆叠,形成更高层表示。

  • 最后使用全连接层输出分类结果。

这种结构体现了分层学习思想。靠近输入端的卷积层通常关注边缘、线条和颜色变化;中间层会组合成角点、纹理和局部形状;更深的层则可能学习到更完整的物体结构。卷积网络之所以强大,关键就在于它能够自动完成这种由低级特征到高级语义的逐层抽象。

6 图像分类中的应用价值

Image Classification(图像分类)是卷积神经网络最经典的应用任务之一。模型接收一张图像后,需要判断它属于哪个类别,例如猫、狗、汽车或其他对象。

如果直接使用全连接网络处理高分辨率图像,参数数量会非常庞大,训练难度和过拟合风险都会迅速增加。卷积神经网络利用局部连接和参数共享,大大减少了参数规模,同时保留了图像空间结构,因此更适合处理视觉数据。

在图像分类过程中,模型先通过浅层卷积识别基础视觉元素,再逐步组合出更高层次的特征,最后由输出层完成类别判断。这说明卷积神经网络并不是单纯记住像素,而是在学习图像内部的结构规律。

卷积网络的提出推动了现代计算机视觉的发展。无论是图像分类、目标检测还是图像分割,很多更复杂的视觉任务都建立在卷积网络的基础思想之上。

总结

本周学习了卷积神经网络的基础原理。卷积神经网络通过局部连接、参数共享和分层特征提取,使模型能够更高效地处理图像数据。卷积层负责识别局部模式,池化层帮助压缩表示并保留关键特征,而多卷积核和多层结构则让模型具备逐层抽象复杂视觉信息的能力。

通过学习卷积、填充、步长、池化和多通道处理等内容,可以更清楚地理解卷积网络为什么适合图像分类任务。它不仅降低了模型参数规模,也提升了对空间结构信息的利用能力。这些基础概念为后续学习更复杂的计算机视觉模型,如目标检测、图像分割和迁移学习,建立了重要基础。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐