深度学习与神经网络知识点
·
这份深度学习与神经网络的知识点汇总,涵盖了从基础感知机到先进生成模型的核心架构、训练优化及工程实践。
一、 神经网络基础 (Foundations)
1. 神经元模型
- M-P神经元:接收输入、加权求和、与阈值比较、通过激活函数输出。
- 感知机 (Perceptron):两层神经元,只能解决线性可分问题(如逻辑与、或、非)。
2. 激活函数 (Activation Functions)
- Sigmoid: 将输入压缩至 ( 0 , 1 ) (0, 1) (0,1)。容易出现梯度消失。
- Tanh: 均值为0,输出范围 ( − 1 , 1 ) (-1, 1) (−1,1)。
- ReLU (Rectified Linear Unit): f ( x ) = max ( 0 , x ) f(x) = \max(0, x) f(x)=max(0,x)。计算快,缓解梯度消失。
- Leaky ReLU / PReLU:解决 ReLU 的“神经元死亡”问题。
- Softmax:用于多分类任务,将输出转化为概率分布。
3. 网络结构
- 多层感知机 (MLP):包含输入层、隐藏层(一层或多层)和输出层。
- 前向传播 (Forward Propagation):信号从输入向输出逐层传递。
- 反向传播 (Backpropagation, BP):基于链式法则计算损失函数对每个权重的偏导数。
二、 卷积神经网络 (CNN) —— 视觉计算核心
1. 核心操作
- 卷积层 (Convolutional Layer):局部感受野、权值共享。通过卷积核提取特征。
- 池化层 (Pooling Layer):最大池化 (Max Pooling) 或平均池化,用于降维、保持平移不变性。
- 填充 (Padding) 与 步长 (Stride):控制输出特征图的大小。
2. 经典架构
- LeNet-5:手写数字识别开山之作。
- AlexNet:深度学习爆发点,引入了 ReLU 和 Dropout。
- VGG:使用小尺寸卷积核 ( 3 × 3 3 \times 3 3×3) 堆叠,探索深度对性能的影响。
- ResNet (残差网络):引入快捷连接 (Shortcut Connection),解决深层网络的退化问题。
- DenseNet (稠密连接):加强特征重用。
- EfficientNet:通过模型缩放 (Scaling) 同时平衡深度、宽度和分辨率。
三、 循环神经网络 (RNN) —— 序列数据处理
1. 基本结构
- RNN:具有循环连接,利用隐藏状态 (Hidden State) 存储历史信息。
- 局限性:长序列训练时存在梯度消失和梯度爆炸。
2. 长短期记忆网络 (LSTM) 与 GRU
- LSTM 门控机制:
- 遗忘门:决定丢弃多少旧信息。
- 输入门:决定存储多少新信息。
- 输出门:决定输出什么信息。
- GRU (Gated Recurrent Unit):将门控简化为更新门和重置门,计算更高效。
四、 Transformer 与 注意力机制
1. 注意力机制 (Attention)
- 核心公式: A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q K T d k ) V Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V Attention(Q,K,V)=softmax(dkQKT)V。
- 自注意力 (Self-Attention):捕捉序列内部的全局依赖关系。
2. Transformer 架构
- Encoder-Decoder 结构:编码器提取特征,解码器生成序列。
- 多头注意力 (Multi-head Attention):在不同子空间学习信息。
- 位置编码 (Positional Encoding):由于没有循环结构,需显式加入位置信息。
五、 深度学习训练与优化 (Optimization)
1. 损失函数 (Loss Functions)
- 均方误差 (MSE):常用于回归。
- 交叉熵损失 (Cross-Entropy):常用于分类,衡量概率分布差异。
2. 优化算法 (Optimizers)
- SGD (随机梯度下降):基础更新方法。
- Momentum (动量法):引入惯性,加速收敛并越过局部极小点。
- Adam (Adaptive Moment Estimation):结合动量与自适应学习率,是目前最通用的算法。
3. 正则化与防过拟合
- L1 / L2 正则化 (权重衰减)。
- Dropout:训练时随机“关闭”神经元。
- Batch Normalization (批标准化):加速训练,提高稳定性。
六、 生成模型与进阶领域
- GAN (生成对抗网络):由生成器 (Generator) 和判别器 (Discriminator) 组成,通过博弈生成逼真数据。
- VAE (变分自编码器):基于概率图模型的生成算法。
- Diffusion Models (扩散模型):通过加噪与去噪过程生成高质量图像(如 Stable Diffusion)。
- 迁移学习 (Transfer Learning):利用预训练模型在小样本任务上取得好效果。
七、 性能评估指标 (Summary)
| 指标 | 适用场景 | 说明 |
|---|---|---|
| Top-1 / Top-5 Accuracy | 图像分类 | 模型预测概率最高(前五)中是否包含正确类 |
| mAP (Mean Average Precision) | 目标检测 | 衡量物体定位与分类的综合性能 |
| BLEU / ROUGE | 自然语言处理 | 衡量文本生成的质量 |
| IoU (交并比) | 语义分割 | 衡量预测区域与真实区域的重合度 |
建议重点复盘 ResNet 的残差结构、Transformer 的自注意力计算以及 Batch Norm 的原理。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)