使用 Hugging Face 新版 CLI 工具 hf 下载数据集(国内镜像加速版)

在进行机器学习和深度学习项目时,我们经常需要从 Hugging Face Hub 下载公开的数据集。然而,由于网络原因,国内用户直接访问 Hugging Face 官方源时往往速度缓慢甚至无法连接。

第一个直觉其实是通过modelscope找替代方案
在这里插入图片描述
modelscope其实做得已经非常棒了!感谢他们的工作,modelscope还支持模型权重下载,支持cli,是我主要使用的一个下载工具,但是少数情况下,modescope也有更新不及时的时候,比如这次我们用到的quilt_vqa的数据集,甚至官网数据集地址还要写邮件申请access等等等。

这种情况下,还是绕不开hugging face
在这里插入图片描述

本文以下载病理图像数据集 Quilt_VQA 为例,介绍如何使用 Hugging Face 新版命令行工具 hf,并结合国内镜像站加速下载。


一、背景:从 huggingface-clihf

过去大家熟悉的下载命令是 huggingface-cli download ...。在新版 huggingface_hub 库中,官方提供了更简洁的命令行入口 hf,功能基本一致,但命令更短、使用更方便。

如果你之前习惯写:

huggingface-cli download wisdomik/Quilt_VQA --local-dir ./Quilt_VQA --repo-type dataset

现在只需把工具名替换成 hf 即可:

hf download wisdomik/Quilt_VQA --local-dir ./Quilt_VQA --repo-type dataset

参数保持一致,迁移成本几乎为零。


二、准备工作

在开始之前,请确保你已经安装了最新版的 huggingface_hub

pip install -U huggingface_hub

在这里插入图片描述

安装完成后,可以用以下命令验证 hf 是否可用:

hf --help

在这里插入图片描述

如果提示找不到 hf 命令,说明你的 huggingface_hub 版本过旧,升级后即可。


三、配置国内镜像加速

Hugging Face 官方站点在国内访问常常不稳定。推荐使用镜像站 hf-mirror.com,只需设置一个环境变量即可生效:

export HF_ENDPOINT=https://hf-mirror.com

在这里插入图片描述

这条命令会让 hf 工具把所有请求自动转发到国内镜像,下载速度显著提升。

小提示:这个环境变量只在当前终端会话生效。如果希望长期使用,可以把它写入 ~/.bashrc~/.zshrc 配置文件。


四、完整下载命令

将环境变量配置与下载命令组合在一起,一行搞定:

export HF_ENDPOINT=https://hf-mirror.com && \
hf download wisdomik/Quilt_VQA --local-dir ./Quilt_VQA --repo-type dataset

参数含义说明:

  • wisdomik/Quilt_VQA:数据集在 Hugging Face 上的仓库路径,格式为 用户名/仓库名
  • --local-dir ./Quilt_VQA:指定下载到当前目录下的 Quilt_VQA 文件夹。
  • --repo-type dataset:声明这是一个数据集仓库(而不是模型仓库或 Space)。

在这里插入图片描述
结果显示access denied,被拒绝了,
这个时候你需要去你hf账户里生成一个token来认证
在这里插入图片描述

在这里插入图片描述
生成后,执行

hf auth login

然后把刚才复制的token贴进去,要注意,这里是不会明文显示的,你执行粘贴回车就好了,不要重复粘贴

一路通过,就可以正常下载了
在这里插入图片描述

五、常见问题排查

1. 提示找不到 --repo-type 参数

如果你使用的 hf 版本比较简化,不支持 --repo-type 参数,可以尝试最精简的写法:

hf download wisdomik/Quilt_VQA --local-dir ./Quilt_VQA

多数情况下 hf 会自动识别仓库类型。

2. 下载中断怎么办?

Quilt_VQA 数据集包含大量病理图像切片,体积较大,下载过程中可能会因为网络波动而中断。不用担心——只需重新执行相同的命令即可hf 会自动检测已下载的部分并断点续传,无需从头再来。

3. 下载速度仍然很慢?

可以检查以下几点:

  • 确认 HF_ENDPOINT 已正确设置,可通过 echo $HF_ENDPOINT 验证。
  • 关闭可能干扰网络的 VPN 或代理。
  • 如果仍有问题,可以尝试使用 hf download 自带的多线程参数(如 --max-workers)提高并发。

六、总结

使用 hf 工具下载 Hugging Face 数据集的三个关键点:

  1. 工具升级:用更简洁的 hf 替代旧版 huggingface-cli,命令更短更好记。
  2. 镜像加速:通过 export HF_ENDPOINT=https://hf-mirror.com 让流量走国内镜像。
  3. 断点续传:大数据集中途掉线不用怕,重复执行命令即可续传。

掌握这套流程后,无论是下载数据集还是模型,你都能在国内网络环境下获得流畅、稳定的体验。祝你科研顺利!

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐