普通relu, y=max(0, x), 相当于无限多个bernoulli分布,即无限多个骰子

relu6, y= min(max(0,x), 6), 相当于有六个bernoulli分布,即6个硬币,同时抛出正面,这样鼓励网络学习到稀疏特征。

网络里面每一个输出n,相当于n个bernoulli分布的叠加。

通过实验发现,用6,效果比较好。所以选用了6

 

参考:

https://stackoverflow.com/questions/47220595/why-the-6-in-relu6

https://arxiv.org/pdf/1601.00034.pdf, 这篇好像很复杂,谁读懂了,给讲讲。

GitHub 加速计划 / te / tensorflow
184.55 K
74.12 K
下载
一个面向所有人的开源机器学习框架
最近提交(Master分支:2 个月前 )
a49e66f2 PiperOrigin-RevId: 663726708 2 个月前
91dac11a This test overrides disabled_backends, dropping the default value in the process. PiperOrigin-RevId: 663711155 2 个月前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐