HuggingFace 加载数据集报错 ConnectionError 无需GoogleColab
·
不会上网或者google账号出现了问题的话
可以使用下面这种方法
图方便还是用GoogleColab
以ChnSentiCorp数据集的train为例
1.进入页面 huggingface
2. 用git命令下载


- 打开git 用cd修改地址到存放dataset的路径
- 输入命令

- 路径下自动生成文件夹

- 新建state.json文件
{
"_data_files": [
{
# 对应上图中的文件名
"filename": "chn_senti_corp-train.arrow"
}
],
"_fingerprint": "24c4fd9824d8b978",
"_format_columns": null,
"_format_kwargs": {},
"_format_type": null,
"_indexes": {},
"_output_all_columns": false,
# 加载训练集数据 若为验证集 'validation' 测试集 'test'
"_split": "train"
}
- 加载训练数据集成功

获得该数据集中的train/validation/test

通过修改state.json 中的两个值来实现
但是在实际应用过程中这样很不方便
所以也可以通过对下载得到的数据分别建文件夹
更规范 更接近于原有api


更多推荐

所有评论(0)