深度学习与神经网络

0854打工人 · 2026-06-16 16:21:27 发布

深度学习与神经网络入门笔记

本文完全对照深度学习入门核心学习目标整理，覆盖机器学习/深度学习区分、逻辑回归、计算图、浅层/深层神经网络前向&反向传播全套知识点，所有数学公式、适合作为课堂复习、期末备考、入门梳理笔记。

完整网络分为三层：输入层、隐藏层、输出层；
最小组成单元：神经元、权重矩阵 $W$ 、偏置 $b$ 、激活函数。

逻辑回归是最简单的单神经元网络，二分类任务底层基础模型。

线性得分： $z=W^TX+b$
Sigmoid激活输出概率： $a=σ(z)=11+e−za=\sigma(z)=\frac{1}{1+e^{-z}}$

单样本交叉熵损失： $L(a,y)=−ylog⁡a−(1−y)log⁡(1−a)\mathcal{L}(a,y)=-y\log a-(1-y)\log(1-a)$
$m$ 个样本总代价函数： $J=1m∑i=1mL(a(i),y(i))J=\frac{1}{m}\sum_{i=1}^m\mathcal{L}(a^{(i)},y^{(i)})$

向量化梯度求解
$dw=1mX(A−Y)T,db=1m∑(a−y)dw=\frac{1}{m}X(A-Y)^T,\quad db=\frac{1}{m}\sum(a-y)$
参数更新规则（ $α\alpha$ 为学习率）
$W=W−α⋅dw,b=b−α⋅dbW=W-\alpha\cdot dw,\quad b=b-\alpha\cdot db$

抛弃逐样本for循环迭代，使用矩阵并行运算，大幅降低运算耗时，是深度学习代码标准写法。

核心依托链式求导法则；计算流程分为两步：正向代入数值计算函数结果，反向逐层求梯度，是神经网络反向传播算法的底层数学原理。

本质等价逻辑回归模型，仅含一层权重搭配Sigmoid激活函数，是二分类任务最基础模型。

逐层通用计算公式：
$Z^{[l]}=W^{[l]}A^{[l-1]}+b^{[l]}$
$A[l]=σ[l](Z[l])A^{[l]}=\sigma^{[l]}(Z^{[l]})$
从输入层逐层计算，传递至输出层得到预测值。

激活函数为网络引入非线性表达能力；
若不存在激活函数，多层网络会退化为单层线性模型，无法拟合非线性复杂数据分布。

输出层梯度： $dZ^{[2]}=A^{[2]}-Y$
权重、偏置梯度通用式：
$dW[l]=1mdZ[l]A[l−1]TdW^{[l]}=\frac{1}{m}dZ^{[l]}A^{[l-1]T}$
$db[l]=1m∑dZ[l]db^{[l]}=\frac{1}{m}\sum dZ^{[l]}$
上一层隐藏层梯度：
$dZ[l−1]=W[l]TdZ[l]⋅σ′[l−1](Z[l−1])dZ^{[l-1]}=W^{[l]T}dZ^{[l]}\cdot\sigma'^{[l-1]}(Z^{[l-1]})$
利用求解得到的梯度，配合梯度下降更新全部权重与偏置参数。