EMA(指数移动平均)及其深度学习应用

Kmaeii

20080人浏览 · 2021-07-02 14:58:02

Kmaeii · 2021-07-02 14:58:02 发布

在深度学习中，经常会使用EMA（指数移动平均）这个方法对模型的参数做平均，以提高测试指标并增加模型鲁棒。

1.基于数学的介绍

1.1 公式例子

我们有关于“温度-天数”的数据

$\theta_t$ ：在第t天的温度。

$v_t$ ：第t天的移动平均数。

$\beta$ ：权重参数。

图中红线即是蓝色数据点的指数移动平均。

1.2 $\LARGE v_t$ 和 $\LARGE \beta$ 之间的关系

$v_t$ 大概表示前 $1/(1 - \beta)$ 天的平均数据。（以第 $t$ 天做参考）

如：

$\beta = 0.9$	$1 / (1 - \beta) \approx 10$	$v_t$ 大概表示前10天的平均数据	红线
$\beta = 0.98$	$1 / (1 - \beta) \approx 50$	$v_t$ 大概表示前50天的平均数据	绿线
$\beta = 0.5$	$1 / (1 - \beta) \approx 2$	$v_t$ 大概表示前2天的平均数据	黄线

那么 $\beta$ 越大，表示考虑的时间长度越长。

1.3 进一步理解 $\LARGE v_t$

当 $\beta =0.9$ ，从 $v_{100}$ 往回写

...

迭代代入 $v_{99}$ ， $v_{98}$ … 得：

由此可知：

1. $v_{100}$ 是 $\theta_{100}\ \theta_{99}\ \theta_{98} \ ...$ 的加权求和

2. 𝜃 前的系数相加起来为 1 或者逼近 1

当某项系数小于峰值系数(𝟏−𝜷）的𝟏/𝒆时，我们可以忽略它的影响

(0.9)^10 ~= 0.34 ~= 1/e 所以当β=0.9时，相当于前10天的加权平均。

(0.98)^50 ~= 0.36 ~= 1/e 所以当β=0.98时，相当于前50天的加权平均。

(0.5)^2 ~= 0.25 ~= 1/e 所以当β=0.5时，相当于前2天的加权平均。

2.在深度学习模型中的应用

$\theta_t$ ：在第t次更新得到的所有参数权重。

$v_t$ ：第t次更新的所有参数移动平均数。

$\beta$ ：权重参数。

2.1 为啥EMA会有用

对于更新n次时普通的参数权重 $\theta_n$ ( $g_n$ 为第n次传播得到的梯度)：

对于更新n次时使用EMA的参数权重 $v_n$ （此式中α为上面提到的参数β）：

将 $\theta_n$ 代入 $v_n$ 表达式，并且令 $v_0 = \theta_1$ 得：

对比两式：

普通的参数权重相当于一直累积更新整个训练过程的梯度，使用EMA的参数权重相当于使用训练过程梯度的加权平均（刚开始的梯度权值很小）。由于刚开始训练不稳定，得到的梯度给更小的权值更为合理，所以EMA会有效。

3.Pytorch实现EMA类

4.biggan实现的EMA

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

2025科研新风向！Top5文献阅读管理工具全测评

GitCode 开源社区

文献管理神器大盘点：5款主流软件助你科研提效！

文献管理是科研的基础环节，选择一款合适的科研提效软件能让你的研究事半功倍。无论是EndNote的专业格式化、Zotero的免费灵活、Mendeley的云端协作、的中文支持，还是沁言学术的全流程AI辅助，每款工具都有独特优势，满足不同需求。尤其是沁言学术，凭借强大的文献管理功能、智能分类和写作支持，成为近年来新兴的科研效率利器，值得一试。科研之路漫漫，效率先行！建议每位大学生、研究生和科研人员根据自