Week 4：卷积神经网络基础

CN_lyl

290人浏览 · 2026-06-13 17:00:32

CN_lyl · 2026-06-13 17:00:32 发布

摘要

本周主要学习 Convolutional Neural Networks（卷积神经网络，CNN）的基础原理与典型结构。卷积神经网络是深度学习中处理图像任务最经典的模型之一，它通过局部感受野、参数共享和分层特征提取机制，更高效地处理具有空间结构的数据。

学习内容包括卷积运算的基本思想、Padding（填充）与 Stride（步长）对输出结果的影响、Pooling（池化）在降维和保留关键特征中的作用、多通道图像与多卷积核的处理方式，以及卷积网络如何逐层从像素中提取边缘、纹理和更高层语义特征。最后结合图像分类任务，理解卷积神经网络在计算机视觉中的实际价值。

Abstract

This weekly report introduces the foundational ideas behind convolutional neural networks. CNNs are highly effective for image-related tasks because they exploit local connectivity, parameter sharing, and hierarchical feature extraction. The learning process this week covers convolution, padding, stride, pooling, multi-channel inputs, and the layered structure of CNNs. These mechanisms allow a model to transform raw image pixels into increasingly meaningful representations for tasks such as image classification.

1 卷积神经网络的基本思想

Convolutional Neural Network（卷积神经网络）是一类专门用于处理图像等网格状数据的神经网络结构。与全连接网络相比，卷积神经网络不再让每一个神经元都连接到上一层的所有输入，而是只关注局部区域。这种做法更符合图像的实际结构，也能显著减少参数数量。

图像中的像素并不是彼此孤立的。相邻像素往往共同构成边缘、纹理和形状，因此模型只需要在局部范围内提取模式，就可以逐步理解整张图像。卷积神经网络正是基于这种思想，通过多个卷积层不断提取局部特征，并在更深层将这些局部特征组合成更复杂的表示。

卷积神经网络的另一个重要特点是 Parameter Sharing（参数共享）。同一个卷积核会在整张图像上重复滑动，并用同一组参数检测不同位置上的相似模式。这样不仅降低了模型复杂度，也让模型具备一定的平移不变性。

2 卷积运算与特征图

2.1 卷积的含义

Convolution（卷积）可以理解为一个小型滤波器在输入图像上滑动，并在每个位置与局部区域做逐元素乘法和求和运算。这个滤波器通常被称为 Kernel（卷积核）或 Filter（滤波器）。

如果卷积核的参数被设计或学习成某种模式，它就能够对输入中的特定特征产生强响应。例如，某些卷积核更容易检测水平边缘，另一些则更容易检测垂直边缘或局部纹理。卷积完成后得到的输出称为 Feature Map（特征图），它表示该卷积核在图像不同位置上对某种特征的响应强弱。

2.2 Padding 与 Stride

Padding（填充）是指在输入图像边界外补充额外像素，常见做法是补零。填充的主要作用有两个：

避免卷积后图像尺寸快速缩小。
保留边缘区域的信息。

Stride（步长）是指卷积核每次滑动时移动的距离。步长越大，输出特征图尺寸越小，计算量也越低；步长越小，模型保留的信息通常越丰富。

因此，卷积层的输出大小通常由输入尺寸、卷积核大小、填充和步长共同决定。合理设置这些参数，可以在信息保留和计算成本之间取得平衡。

3 池化操作

Pooling（池化）用于对特征图进行下采样，从而减少空间尺寸并保留重要特征。池化层通常不会引入需要学习的参数，而是按照固定规则对局部区域进行聚合。

最常见的是 Max Pooling（最大池化），它会从局部区域中选出最大值。由于最大值通常代表该区域某个特征最强的响应，因此最大池化能够在一定程度上保留最显著的信息。另一种是 Average Pooling（平均池化），它计算局部区域的平均值，更强调整体趋势。

池化的主要作用包括：

降低特征图尺寸，减少计算量。
压缩表示，缓解过拟合风险。
在小范围位移下保持特征的稳定性。

卷积层负责提取特征，池化层则帮助模型对这些特征进行压缩与筛选。两者配合，使卷积网络能够逐渐形成更加紧凑、稳定的表示。

4 多通道图像与多卷积核

实际图像往往不是单通道的灰度图，而是包含 RGB（红绿蓝）三个通道的彩色图像。因此，一个卷积核在处理彩色图像时，也需要在深度方向覆盖所有输入通道。换句话说，卷积核不仅有高度和宽度，还具有与输入通道数一致的深度。

卷积计算时，卷积核会同时与各个通道对应区域进行运算，然后将结果相加，得到一个输出值。如果使用多个不同的卷积核，就会得到多个不同的特征图。每个卷积核负责检测一种不同类型的模式，因此多个卷积核能够让模型从同一张图像中学习多种特征。

随着网络加深，后续卷积层接收的输入不再是原始像素，而是前一层生成的多张特征图。这样，模型就能从简单边缘逐步学习到更复杂的纹理、局部结构和物体组成部分。

5 卷积网络的层次结构

卷积神经网络通常由多个 Convolution Layer（卷积层）、Activation Function（激活函数）、Pooling Layer（池化层）以及最后的 Fully Connected Layer（全连接层）组成。

一个典型流程通常是：

输入图像进入卷积层提取局部特征。
激活函数引入非线性能力。
池化层压缩特征图，减少空间尺寸。
多个卷积块重复堆叠，形成更高层表示。
最后使用全连接层输出分类结果。

这种结构体现了分层学习思想。靠近输入端的卷积层通常关注边缘、线条和颜色变化；中间层会组合成角点、纹理和局部形状；更深的层则可能学习到更完整的物体结构。卷积网络之所以强大，关键就在于它能够自动完成这种由低级特征到高级语义的逐层抽象。

6 图像分类中的应用价值

Image Classification（图像分类）是卷积神经网络最经典的应用任务之一。模型接收一张图像后，需要判断它属于哪个类别，例如猫、狗、汽车或其他对象。

如果直接使用全连接网络处理高分辨率图像，参数数量会非常庞大，训练难度和过拟合风险都会迅速增加。卷积神经网络利用局部连接和参数共享，大大减少了参数规模，同时保留了图像空间结构，因此更适合处理视觉数据。

在图像分类过程中，模型先通过浅层卷积识别基础视觉元素，再逐步组合出更高层次的特征，最后由输出层完成类别判断。这说明卷积神经网络并不是单纯记住像素，而是在学习图像内部的结构规律。

卷积网络的提出推动了现代计算机视觉的发展。无论是图像分类、目标检测还是图像分割，很多更复杂的视觉任务都建立在卷积网络的基础思想之上。

总结

本周学习了卷积神经网络的基础原理。卷积神经网络通过局部连接、参数共享和分层特征提取，使模型能够更高效地处理图像数据。卷积层负责识别局部模式，池化层帮助压缩表示并保留关键特征，而多卷积核和多层结构则让模型具备逐层抽象复杂视觉信息的能力。

通过学习卷积、填充、步长、池化和多通道处理等内容，可以更清楚地理解卷积网络为什么适合图像分类任务。它不仅降低了模型参数规模，也提升了对空间结构信息的利用能力。这些基础概念为后续学习更复杂的计算机视觉模型，如目标检测、图像分割和迁移学习，建立了重要基础。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

山东云弈创峰：重构跨境电商的生成式交互与履约链路

AtomGit开源社区

Gitee 代码扫描推荐：面向国内研发团队的 DevSecOps 质量左移方案评估

值得强调的是，Gitee Scan 并非一个黑盒的单一扫描器——它在方案层支持可复用的规则集组合与质量门禁配置，也就是说，对于同一技术栈的多个仓库，你可以只维护一份扫描方案，然后在不同的扫描任务里直接复用，并通过门禁阈值决定本次提交是否能合入。但从"提高审查覆盖率、补全盲区、统一规范执行尺度"的角度来看，将 AI 队友与 Gitee Scan 的 SAST/SCA 门禁串联起来，确实更接近一个现代