目录

  • 摘要
  • Abstract
  • 1 核心基础巩固:梯度下降与神经网络训练流程
    • 1.1 梯度下降原理与变体再梳理
    • 1.2 神经网络完整训练流程闭环
  • 2 本周重点:各类激活函数学习与非线性机制深度认知
    • 2.1 非线性机制的核心意义
    • 2.2 主流激活函数特性对比与分析
    • 2.3 激活函数选择对网络训练的影响
  • 3 学习收获与现存难点

摘要

本周在系统巩固梯度下降原理、神经网络前向传播与反向传播训练流程的基础上,重点围绕各类主流激活函数展开深入学习,通过对比不同激活函数的特性、优势与适用场景,深度理解了非线性机制在深度学习中的核心作用。学习过程扎实,理清了激活函数与模型表达能力、训练稳定性之间的关联,为后续模型设计与调优奠定了重要基础。 关键词:深度学习;激活函数;非线性机制;梯度下降;神经网络训练

Abstract

This week, on the basis of systematically consolidating the principles of gradient descent and the training process of neural network forward and backpropagation, I focused on in-depth learning of various mainstream activation functions. By comparing the characteristics, advantages and applicable scenarios of different activation functions, I deeply understood the core role of nonlinear mechanisms in deep learning. The learning process was solid, and I clarified the relationship between activation functions and model expression ability and training stability, laying an important foundation for subsequent model design and tuning. Keywords: Deep Learning; Activation Function; Nonlinear Mechanism; Gradient Descent; Neural Network Training

1 核心基础巩固:梯度下降与神经网络训练流程

1.1 梯度下降原理与变体再梳理

本周再次系统梳理了梯度下降算法的核心逻辑与三种主流变体。梯度下降作为神经网络参数优化的核心方法,本质是通过误差驱动参数更新,沿着误差减小最快的方向逐步调整权重与偏置。学习率是影响训练效果的关键超参数,过大易导致参数震荡不收敛,过小则训练效率低下。

三种梯度下降变体各有优劣:批量梯度下降使用全部数据计算梯度,更新稳定但速度慢;随机梯度下降单次仅用一个样本更新,速度快但波动大;小批量梯度下降兼顾效率与稳定性,是当前工业界的主流选择。通过反复梳理,我彻底掌握了梯度下降驱动模型迭代优化的完整逻辑。

1.2 神经网络完整训练流程闭环

我重新整合了神经网络训练的五大核心环节,形成了清晰的逻辑闭环:首先通过前向传播将输入数据逐层传递,生成预测结果;然后计算预测值与真实值之间的误差;接着通过反向传播将误差从输出层反向传递至输入层,逐层确定参数调整方向;再利用梯度下降算法更新所有参数;最后重复上述过程,直到模型误差稳定、性能达标。

在梳理过程中,我特别强化了矩阵维度匹配的意识,明确前一层输出维度必须与后一层输入维度一致,这是保障网络正常计算的基本前提。同时,我也加深了对反向传播误差传递逻辑的理解,能够独立梳理两层网络的完整训练流程。

2 本周重点:各类激活函数学习与非线性机制深度认知

2.1 非线性机制的核心意义

深度学习之所以能够解决复杂的现实问题,核心在于引入了非线性机制。单纯的线性模型只能拟合简单的线性关系,即便叠加多层线性结构,最终结果仍然是线性的,无法捕捉数据中复杂的非线性规律。

激活函数正是为网络引入非线性能力的关键模块。通过在每一层线性变换后加入非线性激活函数,网络能够突破线性限制,具备拟合任意复杂连续函数的能力。可以说,没有激活函数引入的非线性,再深的神经网络也只是一个复杂的线性模型,无法发挥其强大的表达能力。

2.2 主流激活函数特性对比与分析

本周系统学习了五种主流激活函数,深入分析了它们的非线性特性、优缺点与适用场景:

  1. Sigmoid 函数 作为最经典的激活函数,Sigmoid 能够将输出值映射到 0 到 1 之间,非常适合二分类任务的输出层。其非线性特性平滑,早期被广泛应用于神经网络中。但 Sigmoid 存在明显缺陷:当输入值过大或过小时,函数梯度会趋近于 0,导致梯度消失问题,使得深层网络难以训练;同时其输出非零中心化,会影响梯度下降的收敛速度。

  2. Tanh 函数 Tanh 函数是 Sigmoid 的改进版本,输出值映射到 - 1 到 1 之间,实现了零中心化,缓解了 Sigmoid 输出非零中心化的问题,收敛速度更快。但 Tanh 仍然存在梯度消失问题,当输入值绝对值较大时,梯度同样会趋近于 0,不适合用于深层网络。

  3. ReLU 函数 ReLU 是目前应用最广泛的激活函数,其核心逻辑是保留正数输入,将负数输入置为 0。ReLU 的计算非常简单,极大提升了网络的训练速度;同时在正数区域梯度恒为 1,有效解决了梯度消失问题。但 ReLU 也存在不足:负数区域梯度为 0,会导致部分神经元永久失活,即 "Dead ReLU" 问题;且输出仍然非零中心化。

  4. Leaky ReLU 函数 Leaky ReLU 是 ReLU 的改进版本,在负数区域引入了一个很小的斜率,而不是直接置为 0。这一改进有效解决了 Dead ReLU 问题,保留了负数区域的梯度信息,同时继承了 ReLU 计算简单、训练速度快的优点。但 Leaky ReLU 引入了一个需要手动调整的超参数,增加了调参难度。

  5. ELU 函数 ELU 函数结合了 Sigmoid 和 ReLU 的优点,在正数区域与 ReLU 一致,在负数区域采用指数函数形式。ELU 输出零中心化,收敛速度快,同时能够缓解 Dead ReLU 问题,对噪声的鲁棒性更强。但 ELU 的计算复杂度高于 ReLU,训练速度稍慢。

2.3 激活函数选择对网络训练的影响

通过对比分析,我认识到激活函数的选择直接影响网络的表达能力、训练稳定性与收敛速度:

  • 对于浅层网络,Sigmoid 和 Tanh 仍然可以使用,但不适合深层网络;
  • 对于大多数深度学习任务,ReLU 是首选的激活函数,能够在保证训练速度的同时获得较好的效果;
  • 当出现 Dead ReLU 问题时,可以尝试使用 Leaky ReLU 或 ELU;
  • 输出层激活函数需要根据任务类型选择:二分类任务用 Sigmoid,多分类任务用 Softmax,回归任务用线性激活。

3 学习收获与现存难点

经过本周扎实的学习,我取得了显著的收获:

  1. 进一步巩固了梯度下降原理与神经网络完整训练流程,能够独立梳理两层网络的训练逻辑;
  2. 系统掌握了五种主流激活函数的特性、优缺点与适用场景;
  3. 深度理解了非线性机制在深度学习中的核心作用,明白了激活函数如何赋予网络强大的表达能力;
  4. 理清了激活函数选择与模型训练效果之间的关联,为后续模型调优积累了理论基础。

在学习过程中也发现了一些尚存的难点:

  1. 不同激活函数在不同任务中的最佳选择依据还不够清晰,需要更多实践经验的积累;
  2. 对于激活函数如何影响网络梯度流动的深层机制理解还不够透彻;
  3. 反向传播中不同激活函数的误差传递逻辑还需要进一步梳理巩固。
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐