这份深度学习与神经网络的知识点汇总,涵盖了从基础感知机到先进生成模型的核心架构、训练优化及工程实践。


一、 神经网络基础 (Foundations)

1. 神经元模型

  • M-P神经元:接收输入、加权求和、与阈值比较、通过激活函数输出。
  • 感知机 (Perceptron):两层神经元,只能解决线性可分问题(如逻辑与、或、非)。

2. 激活函数 (Activation Functions)

  • Sigmoid: 将输入压缩至 ( 0 , 1 ) (0, 1) (0,1)。容易出现梯度消失
  • Tanh: 均值为0,输出范围 ( − 1 , 1 ) (-1, 1) (1,1)
  • ReLU (Rectified Linear Unit) f ( x ) = max ⁡ ( 0 , x ) f(x) = \max(0, x) f(x)=max(0,x)。计算快,缓解梯度消失。
  • Leaky ReLU / PReLU:解决 ReLU 的“神经元死亡”问题。
  • Softmax:用于多分类任务,将输出转化为概率分布。

3. 网络结构

  • 多层感知机 (MLP):包含输入层、隐藏层(一层或多层)和输出层。
  • 前向传播 (Forward Propagation):信号从输入向输出逐层传递。
  • 反向传播 (Backpropagation, BP):基于链式法则计算损失函数对每个权重的偏导数。

二、 卷积神经网络 (CNN) —— 视觉计算核心

1. 核心操作

  • 卷积层 (Convolutional Layer):局部感受野、权值共享。通过卷积核提取特征。
  • 池化层 (Pooling Layer):最大池化 (Max Pooling) 或平均池化,用于降维、保持平移不变性。
  • 填充 (Padding) 与 步长 (Stride):控制输出特征图的大小。

2. 经典架构

  • LeNet-5:手写数字识别开山之作。
  • AlexNet:深度学习爆发点,引入了 ReLU 和 Dropout。
  • VGG:使用小尺寸卷积核 ( 3 × 3 3 \times 3 3×3) 堆叠,探索深度对性能的影响。
  • ResNet (残差网络):引入快捷连接 (Shortcut Connection),解决深层网络的退化问题。
  • DenseNet (稠密连接):加强特征重用。
  • EfficientNet:通过模型缩放 (Scaling) 同时平衡深度、宽度和分辨率。

三、 循环神经网络 (RNN) —— 序列数据处理

1. 基本结构

  • RNN:具有循环连接,利用隐藏状态 (Hidden State) 存储历史信息。
  • 局限性:长序列训练时存在梯度消失梯度爆炸

2. 长短期记忆网络 (LSTM) 与 GRU

  • LSTM 门控机制
    • 遗忘门:决定丢弃多少旧信息。
    • 输入门:决定存储多少新信息。
    • 输出门:决定输出什么信息。
  • GRU (Gated Recurrent Unit):将门控简化为更新门和重置门,计算更高效。

四、 Transformer 与 注意力机制

1. 注意力机制 (Attention)

  • 核心公式 A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K T d k ) V Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V Attention(Q,K,V)=softmax(dk QKT)V
  • 自注意力 (Self-Attention):捕捉序列内部的全局依赖关系。

2. Transformer 架构

  • Encoder-Decoder 结构:编码器提取特征,解码器生成序列。
  • 多头注意力 (Multi-head Attention):在不同子空间学习信息。
  • 位置编码 (Positional Encoding):由于没有循环结构,需显式加入位置信息。

五、 深度学习训练与优化 (Optimization)

1. 损失函数 (Loss Functions)

  • 均方误差 (MSE):常用于回归。
  • 交叉熵损失 (Cross-Entropy):常用于分类,衡量概率分布差异。

2. 优化算法 (Optimizers)

  • SGD (随机梯度下降):基础更新方法。
  • Momentum (动量法):引入惯性,加速收敛并越过局部极小点。
  • Adam (Adaptive Moment Estimation):结合动量与自适应学习率,是目前最通用的算法。

3. 正则化与防过拟合

  • L1 / L2 正则化 (权重衰减)
  • Dropout:训练时随机“关闭”神经元。
  • Batch Normalization (批标准化):加速训练,提高稳定性。

六、 生成模型与进阶领域

  • GAN (生成对抗网络):由生成器 (Generator) 和判别器 (Discriminator) 组成,通过博弈生成逼真数据。
  • VAE (变分自编码器):基于概率图模型的生成算法。
  • Diffusion Models (扩散模型):通过加噪与去噪过程生成高质量图像(如 Stable Diffusion)。
  • 迁移学习 (Transfer Learning):利用预训练模型在小样本任务上取得好效果。

七、 性能评估指标 (Summary)

指标 适用场景 说明
Top-1 / Top-5 Accuracy 图像分类 模型预测概率最高(前五)中是否包含正确类
mAP (Mean Average Precision) 目标检测 衡量物体定位与分类的综合性能
BLEU / ROUGE 自然语言处理 衡量文本生成的质量
IoU (交并比) 语义分割 衡量预测区域与真实区域的重合度

建议重点复盘 ResNet 的残差结构Transformer 的自注意力计算以及 Batch Norm 的原理

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐