关于loss.backward()以及其参数retain_graph的一些坑

漫浸天空的雨色

57104人浏览 · 2020-03-01 19:33:37

漫浸天空的雨色 · 2020-03-01 19:33:37 发布

关于loss.backward()以及其参数retain_graph的一些坑

首先，loss.backward()这个函数很简单，就是计算与图中叶子结点有关的当前张量的梯度
使用呢，当然可以直接如下使用

    optimizer.zero_grad() 清空过往梯度；
    loss.backward() 反向传播，计算当前梯度；
    optimizer.step() 根据梯度更新网络参数

or这种情况
    for i in range(num):
        loss+=Loss(input,target)
    optimizer.zero_grad() 清空过往梯度；
    loss.backward() 反向传播，计算当前梯度；
    optimizer.step() 根据梯度更新网络参数

但是，有些时候会出现这样的错误：RuntimeError: Trying to backward through the graph a second time, but the buffers have already been freed

这个错误的意思就是，Pytorch的机制是每次调用.backward()都会free掉所有buffers，模型中可能有多次backward()，而前一次backward()存储在buffer中的梯度，会因为后一次调用backward()被free掉，因此，这里需要用到retain_graph=True这个参数
使用这个参数，可以让前一次的backward()的梯度保存在buffer内，直到更新完成，但是要注意，如果你是这样写的：

    optimizer.zero_grad() 清空过往梯度；
    loss1.backward(retain_graph=True) 反向传播，计算当前梯度；
    loss2.backward(retain_graph=True) 反向传播，计算当前梯度；
    optimizer.step() 根据梯度更新网络参数

那么你可能会出现内存溢出的情况，并且，每一次迭代会比上一次更慢，越往后越慢（因为你的梯度都保存了，没有free）
解决的方法，当然是这样：

    optimizer.zero_grad() 清空过往梯度；
    loss1.backward(retain_graph=True) 反向传播，计算当前梯度；
    loss2.backward() 反向传播，计算当前梯度；
    optimizer.step() 根据梯度更新网络参数

即：最后一个backward()不要加retain_graph参数，这样每次更新完成后会释放占用的内存，也就不会出现越来越慢的情况了。

这里有人就会问了，我又没有这么多 loss，怎么还会出现这种错误呢？这里可能是因为，你用的模型本身有问题，LSTM和GRU都会出现这样的问题，问题存在与hidden unit，这个东东也参与了反向传播，所以导致了有多个backward()，
这里其实我也挺费解，为什么存在多个backward()呢？难道是，我的LSTM网络是N to N，即输入N和，输出N个，然后和N个label进行计算loss，再进行回传，这里，可以思考一下BPTT，即，如果是N to 1，那么梯度更新需要时间序列所有的输入以及隐藏变量计算梯度，然后从最后一个向前传，所以只有一个backward()，而N to N 以及 N to M 都会出现多个loss需要进行backward()的情况，如果还是两个方向（一个从输出到输入，一个沿着时间）一直进行传播，那么其实会有重叠的部分，所以解决的方法也就很明了了，利用detach()函数，切断其中重叠的反向传播，（这里仅是我的个人理解，若有误还请评论指出，大家共同探讨）切断的方式有三种，如下：

hidden.detach_()
hidden = hidden.detach()
hidden = Variable(hidden.data, requires_grad=True)

任选其一即可，这里附一些我参考的解释，大家可以看看

Help clarifying repackage_hidden in word_language_model
Pytorch 如何实现训练LSTM的BPTT算法？
RuntimeError: Trying to backward through the graph a second time, but the buffers have already been freed
Pytorch中retain_graph参数的作用

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

1.8B 体积、33 种语言互译｜腾讯混元 HY-MT1.5-1.8B 多语言机器翻译模型上线

在跨语言交流日益频繁的今天，阅读外语菜单、处理多语言邮件、与不同语言背景的人沟通，已经成为很多人日常工作与生活的一部分。过去，这类需求往往依赖联网翻译工具，而如今，—— 一部设备即可支持的相互翻译。当 AI 不再只是“逐字直译”，而是开始理解语境、风格与语言之间的细微差异，机器翻译就真正具备了今天为大家介绍一款高质量、多语言、支持端侧部署的机器翻译模型 ——，现已上线 AtomGit AI 社区，