计算与分析-深度学习

2301_78450837 · 2025-06-06 07:00:00 发布

正则化在深度神经网络训练的作用，并说明L1和L2正则化特点

激活函数的作用：引入非线性能力，使模型可以学习更复杂映射关系

sigmoid函数：优点：输出范围在 (0,1)，适合处理概率类问题或二分类输出层;连续可导，可以反向传播更新参数

缺点：输入绝对值较大时，梯度趋近于 0，导致深层网络训练困难；因为非0中心化后层神经元输入偏向正数，导致梯度方向单一（如全为正或负），影响收敛效率；含指数运算，相比其他函数计算更耗时

ReLU函数：

优点：

缺点：

指标对比：
- 过拟合：训练集损失低、测试集损失高（模型 “记忆” 噪声，泛化差）。
- 欠拟合：训练集和测试集损失均高（模型未捕获数据基本规律）。
可视化：
- 过拟合：模型在训练数据上拟合曲线过于复杂（如高次多项式拟合）。
- 欠拟合：拟合曲线过于简单，无法覆盖数据分布。

迁移学习指将在源任务上训练好的模型 / 知识，应用于目标任务的学习过程，旨在利用已有知识提升新任务的学习效率或性能。

目的：解决目标任务数据稀缺问题，利用源任务的大量数据。
方法：
- 数据增强：对目标任务数据做旋转、缩放等变换，扩充样本量。
- 领域自适应：通过对齐源域与目标域的数据分布（如对抗训练），减少域差异。
场景：医疗影像分析（目标任务数据少，源任务为自然图像）、小语种 NLP。

目的：复用预训练模型的特征提取能力，避免从头训练。
方法：
- 微调（Fine-tuning）：冻结预训练模型底层参数，仅训练顶层分类器（如 BERT 用于情感分析）。
- 特征提取：直接使用预训练模型的中间层输出作为特征，输入新模型。
场景：
- 计算机视觉：ImageNet 预训练的 ResNet 用于目标检测。
- NLP：GPT 预训练模型用于文本生成任务。

Boosting：个体学习器存在强依赖关系；串行生成；每次调整训练数据的样本分布

Bagging：个体学习器不存在强依赖关系；并行化生成；自助采样法

梯度爆炸：反向传播中梯度值持续增大，导致参数更新幅度过大，模型无法收敛

解决方法：梯度截断；权重初始化优化；正则化与参数约束
梯度消失：反向传播中梯度值逐层衰减至接近 0，导致底层参数无法更新，模型性能停滞

解决方法：更换激活函数；门控机制；残差连接；批量归一化

划分逻辑：
- 训练集：约 70%-80%，用于模型参数学习。
- 验证集：约 10%-15%，用于调参（如学习率、正则化强度）。
- 测试集：约 10%-15%，独立评估模型泛化能力，仅在最终阶段使用。

判断依据：
- 训练集准确率持续上升，验证集准确率停滞或下降。
- 训练集损失低，验证集损失显著更高。
处理方法：
- 数据增强：旋转、翻转、裁剪、加噪声等扩充样本多样性。
- 正则化：
  - L2 正则化：抑制大参数，避免模型过度复杂。
  - Dropout：训练时随机丢弃神经元，减少对特定特征的依赖。
- 早停法：监控验证集损失，若连续若干轮不下降则停止训练。
- 集成学习：组合多个模型（如不同初始化的网络），降低单一模型过拟合风险。

核心作用：通过卷积核（滤波器）提取图像局部特征（如边缘、纹理、形状）。
关键参数：
- 卷积核大小（如 3×3、5×5）：决定提取特征的尺度。
- 步长（Stride）：控制卷积核移动步幅，影响输出特征图尺寸。
- 填充（Padding）：保持特征图尺寸（如 Same Padding）。
输出：特征图（Feature Map），深度由卷积核数量决定。