Bert使用的激活函数:gelu---高斯误差线性单元
bert
TensorFlow code and pre-trained models for BERT
项目地址:https://gitcode.com/gh_mirrors/be/bert
·
Bert Transfromer结构中使用了这个激活函数---gelu(Gaussian error linear units,高斯误差线性单元),Gelu在论文中已经被验证,是一种高性能的神经网络激活函数,因为GELU的非线性变化是一种符合预期的随机正则变换方式(这句话,说实话,我翻译自原论文,具体怎么理解呢?我自己是如下理解的)。
- 激活函数的作用:给网络模型加入非线性因子,这个非线性因子的实际操作就是在wx+b这样的线下变化后面加入一个非线性变化的函数fun。
- Gelu的操作方式:Gelu怎么完成非线性变换的呢?引入这样的变化函数:
公式中x是自己,P(X<=x)决定x中有多少信息保留 ,并且由于P是服从高斯分布的,也就满足了非线性的特征,并且更加符合数据的分布预期。
- 相比Relu:Relu将小于0的数据映射到0,将大于0的给与 等于 映射操作,虽然性能比sigmoid好,但是缺乏数据的统计特性,而Gelu则在relu的基础上加入了统计的特性。论文中提到在好几个深度学习任务中都优于Relu的效果。


Reference:
[1] Gaussian Error Linear Units (GELUs), Dan Hendrycks, Kevin Gimpel
(Submitted on 27 Jun 2016 (v1), last revised 11 Nov 2018 (this version, v3))
https://arxiv.org/abs/1606.08415
TensorFlow code and pre-trained models for BERT
最近提交(Master分支:4 个月前 )
eedf5716
Add links to 24 smaller BERT models. 5 年前
8028c045 - 5 年前
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)