Bert base的网络结构:

L(网络层数)=12, H(隐藏层维度)=768, A(Attention 多头个数)=12, Total Parameters= 12*768*12=110M

使用GPU内存:7G多

Bert base的网络结构:

) and BERTLARGE (L=24, H=1024,
A=16, Total Parameters=340M).

使用GPU内存:32G多

GitHub 加速计划 / be / bert
37.61 K
9.55 K
下载
TensorFlow code and pre-trained models for BERT
最近提交(Master分支:2 个月前 )
eedf5716 Add links to 24 smaller BERT models. 4 年前
8028c045 - 4 年前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐