用的是transformers,进入 hugging face 的这个网站:bert-base-chinese · Hugging Face

在 Files and Versions 中对应下载或另存为(有的下完要重命名一下)

所需要的就是 config.json,   pytorch_model.bin, vocab.txt 这几个文件

建立了如下文件夹路径来存放这些文件

└─bert
    │  vocab.txt
    │  
    └─bert-base-chinese
            config.json
            pytorch_model.bin

from transformers import BertTokenizer

vocab_file = 'bert/vocab.txt'

tokenizer = BertTokenizer(vocab_file)
from transformers.modeling_bert import BertModel

bert = BertModel.from_pretrained("bert/bert-base-chinese/")

此处用的 transformers的版本是3.2.0

往下具体再怎么使用,可以去github找一些具体任务,

如文本分类之类的项目代码,看处理步骤。

放一个我以前跟着做的法研杯的一个任务,有基线代码

学会使用pytorch的bert也是从这个基线代码学到的,不过单机多卡的分布式训练还没搞懂:

CAIL2020-Argument-Mining/model.py at master · gaoyixu/CAIL2020-Argument-Mining · GitHubhttps://github.com/gaoyixu/CAIL2020-Argument-Mining/blob/master/model.py#L28

CAIL2020-Argument-Mining/data.py at master · gaoyixu/CAIL2020-Argument-Mining · GitHubhttps://github.com/gaoyixu/CAIL2020-Argument-Mining/blob/master/data.py#L117

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐