TensorFlow教程——梯度爆炸与梯度裁剪

tensorflow

一个面向所有人的开源机器学习框架

项目地址：https://gitcode.com/gh_mirrors/te/tensorflow

免费下载资源

手撕机

14354人浏览 · 2018-03-13 21:38:09

手撕机 · 2018-03-13 21:38:09 发布

在较深的网络，如多层CNN或者非常长的RNN，由于求导的链式法则，有可能会出现梯度消失（Gradient Vanishing）或梯度爆炸（Gradient Exploding ）的问题。（这部分知识后面补充）

原理

问题：为什么梯度爆炸会造成训练时不稳定而且不收敛？
梯度爆炸，其实就是偏导数很大的意思。回想我们使用梯度下降方法更新参数：

w 1 w 2 = w 1 - α \partial J ( w ) \partial w 1 = w 2 - α \partial J ( w ) \partial w 2 (1)

$\begin{equation} \begin{aligned} w_1 & = w_1-\alpha \frac{\partial J(\mathbf{w})}{\partial w_1} \\ w_2 & = w_2-\alpha \frac{\partial J(\mathbf{w})}{\partial w_2} \end{aligned} \end{equation}$

损失函数的值沿着梯度的方向呈下降趋势，然而，如果梯度（偏导数）很大话，就会出现函数值跳来跳去，收敛不到最值的情况，如图：

这里写图片描述

当然出现这种情况，其中一种解决方法是，将学习率 $\alpha$ 设小一点，如0.0001。

这里介绍梯度裁剪（Gradient Clipping）的方法，对梯度进行裁剪，论文提出对梯度的L2范数进行裁剪，也就是所有参数偏导数的平方和再开方。

让 $g_1=\frac{\partial J(\mathbf{w})}{\partial w_1}$ ， $g_2=\frac{\partial J(\mathbf{w})}{\partial w_2}$ ，设定裁剪阈值为 $c$ ， $\parallel \mathbf{g} \parallel _2 = \sqrt{g_1^2+g_2^2}$ 。

当 $\parallel \mathbf{g} \parallel _2$ 大于 $c$ 时：

g = \frac{c}{∥ g ∥_{2}} \cdot g

$\mathbf{g}=\frac{c}{\parallel \mathbf{g} \parallel _2 } \cdot \mathbf{g}$

当 $\parallel \mathbf{g} \parallel _2$ 小于等于 $c$ 时： $\mathbf{g}$ 不变。

其中， $\frac{c}{\parallel \mathbf{g} \parallel _2 }$ 是一个标量，大家有没有觉得这个跟学习率 $\alpha$ 很类似？

TensorFlow代码

方法一：

optimizer = tf.train.AdamOptimizer(learning_rate=0.001, beta1=0.5)
grads = optimizer.compute_gradients(loss)
for i, (g, v) in enumerate(grads):
    if g is not None:
        grads[i] = (tf.clip_by_norm(g, 5), v)  # 阈值这里设为5
train_op = optimizer.apply_gradients(grads)

其中
optimizer.compute_gradients()返回的是正常计算的梯度，是一个包含(gradient, variable)的列表。

tf.clip_by_norm(t, clip_norm)返回裁剪过的梯度，维度跟t一样。

不过这里需要注意的是，这里范数的计算不是根据全局的梯度，而是一部分的。

方法二：

optimizer = tf.train.AdamOptimizer(learning_rate=0.001, beta1=0.5)
grads, variables = zip(*optimizer.compute_gradients(loss))
grads, global_norm = tf.clip_by_global_norm(grads, 5)
train_op = optimizer.apply_gradients(zip(grads, variables))

这里是计算全局范数，这才是标准的。不过缺点就是会慢一点，因为需要全部梯度计算完之后才能进行裁剪。

总结

当你训练模型出现Loss值出现跳动，一直不收敛时，除了设小学习率之外，梯度裁剪也是一个好方法。

然而这也说明，如果你的模型稳定而且会收敛，但是效果不佳时，那这就跟学习率和梯度爆炸没啥关系了。因此，学习率的设定和梯度裁剪的阈值并不能提高模型的准确率。

GitHub 加速计划 / te / tensorflow

184.55 K

74.12 K

下载

一个面向所有人的开源机器学习框架

最近提交(Master分支：2 个月前 )

a49e66f2 PiperOrigin-RevId: 663726708 2 个月前

91dac11a This test overrides disabled_backends, dropping the default value in the process. PiperOrigin-RevId: 663711155 2 个月前

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m