不会上网或者google账号出现了问题的话
可以使用下面这种方法
图方便还是用GoogleColab

以ChnSentiCorp数据集的train为例

1.进入页面 huggingface
2. 用git命令下载
在这里插入图片描述
在这里插入图片描述

  1. 打开git 用cd修改地址到存放dataset的路径
  2. 输入命令在这里插入图片描述
  3. 路径下自动生成文件夹在这里插入图片描述
  4. 新建state.json文件
{
    "_data_files": [
      {
      	# 对应上图中的文件名 
        "filename": "chn_senti_corp-train.arrow"
      }
    ],
    "_fingerprint": "24c4fd9824d8b978",
    "_format_columns": null,
    "_format_kwargs": {},
    "_format_type": null,
    "_indexes": {},
    "_output_all_columns": false,
    # 加载训练集数据 若为验证集 'validation' 测试集 'test'
    "_split": "train"
  }
  1. 加载训练数据集成功
    在这里插入图片描述

获得该数据集中的train/validation/test

在这里插入图片描述
通过修改state.json 中的两个值来实现
但是在实际应用过程中这样很不方便
所以也可以通过对下载得到的数据分别建文件夹
更规范 更接近于原有api
在这里插入图片描述

在这里插入图片描述

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐