深度学习与神经网络知识点

薰丶

207人浏览 · 2026-03-29 20:50:26

薰丶 · 2026-03-29 20:50:26 发布

这份深度学习与神经网络的知识点汇总，涵盖了从基础感知机到先进生成模型的核心架构、训练优化及工程实践。

一、神经网络基础 (Foundations)

1. 神经元模型

M-P神经元：接收输入、加权求和、与阈值比较、通过激活函数输出。
感知机 (Perceptron)：两层神经元，只能解决线性可分问题（如逻辑与、或、非）。

2. 激活函数 (Activation Functions)

Sigmoid: 将输入压缩至 $(0, 1)$ 。容易出现梯度消失。
Tanh: 均值为0，输出范围 $(- 1, 1)$ 。
ReLU (Rectified Linear Unit)： $\max(0, x)$ 。计算快，缓解梯度消失。
Leaky ReLU / PReLU：解决 ReLU 的“神经元死亡”问题。
Softmax：用于多分类任务，将输出转化为概率分布。

3. 网络结构

多层感知机 (MLP)：包含输入层、隐藏层（一层或多层）和输出层。
前向传播 (Forward Propagation)：信号从输入向输出逐层传递。
反向传播 (Backpropagation, BP)：基于链式法则计算损失函数对每个权重的偏导数。

二、卷积神经网络 (CNN) —— 视觉计算核心

1. 核心操作

卷积层 (Convolutional Layer)：局部感受野、权值共享。通过卷积核提取特征。
池化层 (Pooling Layer)：最大池化 (Max Pooling) 或平均池化，用于降维、保持平移不变性。
填充 (Padding) 与步长 (Stride)：控制输出特征图的大小。

2. 经典架构

LeNet-5：手写数字识别开山之作。
AlexNet：深度学习爆发点，引入了 ReLU 和 Dropout。
VGG：使用小尺寸卷积核 ( $\times 3$ ) 堆叠，探索深度对性能的影响。
ResNet (残差网络)：引入快捷连接 (Shortcut Connection)，解决深层网络的退化问题。
DenseNet (稠密连接)：加强特征重用。
EfficientNet：通过模型缩放 (Scaling) 同时平衡深度、宽度和分辨率。

三、循环神经网络 (RNN) —— 序列数据处理

1. 基本结构

RNN：具有循环连接，利用隐藏状态 (Hidden State) 存储历史信息。
局限性：长序列训练时存在梯度消失和梯度爆炸。

2. 长短期记忆网络 (LSTM) 与 GRU

LSTM 门控机制：
- 遗忘门：决定丢弃多少旧信息。
- 输入门：决定存储多少新信息。
- 输出门：决定输出什么信息。
GRU (Gated Recurrent Unit)：将门控简化为更新门和重置门，计算更高效。

四、 Transformer 与注意力机制

1. 注意力机制 (Attention)

核心公式： $softmax(\frac{QK^T}{\sqrt{d_k}})V$ 。
自注意力 (Self-Attention)：捕捉序列内部的全局依赖关系。

2. Transformer 架构

Encoder-Decoder 结构：编码器提取特征，解码器生成序列。
多头注意力 (Multi-head Attention)：在不同子空间学习信息。
位置编码 (Positional Encoding)：由于没有循环结构，需显式加入位置信息。

五、深度学习训练与优化 (Optimization)

1. 损失函数 (Loss Functions)

均方误差 (MSE)：常用于回归。
交叉熵损失 (Cross-Entropy)：常用于分类，衡量概率分布差异。

2. 优化算法 (Optimizers)

SGD (随机梯度下降)：基础更新方法。
Momentum (动量法)：引入惯性，加速收敛并越过局部极小点。
Adam (Adaptive Moment Estimation)：结合动量与自适应学习率，是目前最通用的算法。

3. 正则化与防过拟合

L1 / L2 正则化 (权重衰减)。
Dropout：训练时随机“关闭”神经元。
Batch Normalization (批标准化)：加速训练，提高稳定性。

六、生成模型与进阶领域

GAN (生成对抗网络)：由生成器 (Generator) 和判别器 (Discriminator) 组成，通过博弈生成逼真数据。
VAE (变分自编码器)：基于概率图模型的生成算法。
Diffusion Models (扩散模型)：通过加噪与去噪过程生成高质量图像（如 Stable Diffusion）。
迁移学习 (Transfer Learning)：利用预训练模型在小样本任务上取得好效果。

七、性能评估指标 (Summary)

指标	适用场景	说明
Top-1 / Top-5 Accuracy	图像分类	模型预测概率最高（前五）中是否包含正确类
mAP (Mean Average Precision)	目标检测	衡量物体定位与分类的综合性能
BLEU / ROUGE	自然语言处理	衡量文本生成的质量
IoU (交并比)	语义分割	衡量预测区域与真实区域的重合度

建议重点复盘 ResNet 的残差结构、Transformer 的自注意力计算以及 Batch Norm 的原理。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

基于深度确定性策略梯度算法（DDPG）强化学习的滑模控制（SMC）自适应调参优化算法Simulink仿真

在复杂非线性系统控制领域，单一控制算法往往难以兼顾控制精度、鲁棒性与自适应能力，因此算法融合成为提升控制性能的重要方向。深度确定性策略梯度算法（DDPG）作为强化学习领域中经典的基于策略的算法，其核心优势在于能够适配连续动作空间的决策问题，无需依赖系统精确模型，具备自主探索与学习优化的能力，可通过与环境的实时交互不断调整策略，实现目标优化。

AtomGit开源社区

Agent Harness，硅谷爆火的全新AI技术框架

Harness将与领域本体深度结合，将行业本体的规则、约束直接内置到Harness的校验层，实现业务规则的机器可执行化，进一步提升Agent在垂直行业的确定性与合规性，这也是金融、政务等强监管场景的核心发展方向。，子Agent的工作内容不会污染主Agent的核心上下文，大幅提升token效率；违规行为的自动拦截与告警；：未来将出现专门的HaaS厂商，提供开箱即用的、针对不同垂直场景的Harness