Hugging Face 模型下载方法一览。

亮子李

31437人浏览 · 2022-10-24 13:42:11

亮子李 · 2022-10-24 13:42:11 发布

huggingface可谓是深度学习里最重要的社区之一了。里面有无数个我们需要的模型和代码。近年来，知名的模型都会在huggingFace里先放一份代码和模型参数。我们要做的就是下载这些模型。

以Bert为例。

bert-base-chinese at main

这是bert的网址。

截图可以看到有这些文件都是代码和模型权重，还有其他文件。

如果想下载，点击图中的那个文件大小后的小小的下载箭头就可以下载对应文件。

可是，有时候，有些模型的这个页面中有很多个文件夹和文件，一个一个点着去下，让人崩溃。那么有没有什么好的方法呢？

一：最推荐的方法：

hf_hub_download()

当然是这个函数啦，来自官方的函数，可以下载页面中所有的文件，并安照文件夹放好。而且还可以筛选不想要的文件，具体看官网api。

Download files from the Hub

代码如下。 ‘bert-base-chinese’ 是网址后面那一截。

a = snapshot_download(repo_id="bert-base-chinese")

a是返回的存储路径。如果你想指定下载路径。

a = snapshot_download(repo_id="bert-base-chinese", cache_dir='v1-4')

如果你遇到

requests.exceptions.HTTPError: 401 Client Error: Unauthorized for url

这是因为有些模型，不是公开的，或者需要一些协议，必须登录才行。（Bert是公开的）。

此时我们需要添加 readtoken, 其中， readtoken 是属于每个人自己的专属token，从huggiface 官网注册，然后点开setting，点token。即可创建属于自己的token ,复制到下面的代码里即可。

read_token = 'hf_qh ???????????  '
a = snapshot_download(repo_id="bert-base-chinese", cache_dir='v1-4', use_auth_token=read_token)

如果出现

requests.exceptions.HTTPError: 404 Client Error: Not Found for url:

说明你网址输入错了，注意是huggingface.co 后面到tree前截至。

二： git clone

直接git clone +网址

不好用的地方在于，这个方法不会下载权重文件。需要手动下载或者联网使用

三：

用模型当页推荐使用方法使用。这个好像也得联网才能调用。

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")

model = AutoModelForMaskedLM.from_pretrained("bert-base-chinese")

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

1.8B 体积、33 种语言互译｜腾讯混元 HY-MT1.5-1.8B 多语言机器翻译模型上线

在跨语言交流日益频繁的今天，阅读外语菜单、处理多语言邮件、与不同语言背景的人沟通，已经成为很多人日常工作与生活的一部分。过去，这类需求往往依赖联网翻译工具，而如今，—— 一部设备即可支持的相互翻译。当 AI 不再只是“逐字直译”，而是开始理解语境、风格与语言之间的细微差异，机器翻译就真正具备了今天为大家介绍一款高质量、多语言、支持端侧部署的机器翻译模型 ——，现已上线 AtomGit AI 社区，