反向传播算法——矩阵向量形式递推公式——ReLU传递函数

phoenix@Capricornus

1212人浏览 · 2025-05-14 08:41:18

phoenix@Capricornus · 2025-05-14 08:41:18 发布

反向传播算法

来源于https://udlbook.github.io/udlbook/，我不明白初始不从 $x0\boldsymbol{x}_0$ 开始，而是从 $z0\boldsymbol{z}_0$ 开始，不知道怎么想的。

考虑一个深度神经网络 $f(xi,ϕ)f(\boldsymbol{x}_i, \boldsymbol{\phi})$ ，它接受输入 $xi\boldsymbol{x}_i$ ，具有 $M$ 个隐藏层和 ReLU 激活函数，并且有单独的损失项 $Li=L(yi,f(xi,ϕ))L_i = L(\boldsymbol{y}_i,f(\boldsymbol{x}_i, \boldsymbol{\phi}))$ 。反向传播的目标是计算关于偏差 $bℓ\boldsymbol{b}_\ell$ 和权重 $Wℓ\boldsymbol{W}_\ell$ 的导数 $∂Li∂bℓ\frac{\partial L_i}{\partial \boldsymbol{b}_\ell}$ 和 $∂Li∂Wℓ\frac{\partial L_i}{\partial \boldsymbol{W}_\ell}$ 。

前向传递： 计算并存储以下量：

$\begin{aligned} \boldsymbol{z}_0 &= \boldsymbol{b}_0 + \boldsymbol{W}_0 \boldsymbol{x} \\ \boldsymbol{x}_\ell &=\boldsymbol{\varphi}(\boldsymbol{z}_{\ell-1}) & \ell = 1, 2, \cdots, M \\ \boldsymbol{z}_\ell &= \boldsymbol{b}_\ell + \boldsymbol{W}_\ell \boldsymbol{x}_\ell. & \ell = 1, 2, \cdots, M \end{aligned}$

反向传递： 从损失函数 $L_d$ 关于网络输出 $zM\boldsymbol{z}_M$ 的导数 $∂Ld∂zM\frac{\partial L_d}{\partial \boldsymbol{z}_M}$ 开始，并在网络中反向工作：

$\begin{aligned} \frac{\partial L_d}{\partial \boldsymbol{b}_\ell} &= \frac{\partial L_d}{\partial \boldsymbol{z}_\ell} & \ell = M, M-1, \cdots, 1\\ \frac{\partial L_d}{\partial \boldsymbol{W}_\ell} &= \frac{\partial L_d}{\partial \boldsymbol{z}_\ell} \boldsymbol{x}_\ell^{\top} & \ell = M, M-1, \cdots, 1 \\ \frac{\partial L_d}{\partial \boldsymbol{z}_{\ell-1}} &= {I}(\boldsymbol{z}_{\ell-1} > 0) \odot \left( \boldsymbol{W}_\ell^{\top} \frac{\partial L_d}{\partial \boldsymbol{z}_\ell} \right), & \ell = M, M-1, \cdots, 1 \end{aligned}$

其中 $⊙\odot$ 表示逐点乘法，而 $I(zℓ−1>0){I}(\boldsymbol{z}_{\ell-1} > 0)$ 是一个向量，其中在 $zℓ−1\boldsymbol{z}_{\ell-1}$ 大于零的位置包含一，在其他位置包含零。

最后，计算关于第一组偏差和权重的导数：

$\begin{aligned} \frac{\partial L_d}{\partial \boldsymbol{b}_0} &= \frac{\partial L_d}{\partial \boldsymbol{z}_0} \\ \frac{\partial L_d}{\partial \boldsymbol{W}_0} &= \frac{\partial L_d}{\partial \boldsymbol{z}_0} \boldsymbol{x}^{\top} \end{aligned}$