【深度学习】Hugging Face Transformers：预训练语言模型与迁移学习

transformers

huggingface/transformers: 是一个基于 Python 的自然语言处理库，它使用了 PostgreSQL 数据库存储数据。适合用于自然语言处理任务的开发和实现，特别是对于需要使用 Python 和 PostgreSQL 数据库的场景。特点是自然语言处理库、Python、PostgreSQL 数据库。

项目地址：https://gitcode.com/gh_mirrors/tra/transformers

免费下载资源

Tony_cccccccc

1039人浏览 · 2023-04-16 20:14:02

Tony_cccccccc · 2023-04-16 20:14:02 发布

摘要：本文介绍了Hugging Face Transformers库，重点介绍了预训练语言模型和迁移学习的概念。我们将通过示例来说明如何使用Transformers库进行文本分类、生成等任务，以及如何用自己的数据微调预训练模型。

1. Hugging Face Transformers 简介

Hugging Face Transformers 是一个用于自然语言处理（NLP）的开源库，提供了各种预训练模型。这些模型被广泛应用于各种任务，如文本分类、命名实体识别、问答、文本生成等。Transformers库易于使用，可方便地集成到现有的深度学习框架，如PyTorch和TensorFlow。

2. 预训练语言模型

预训练语言模型是在大规模文本数据上训练的深度学习模型。这些模型学习了文本的潜在结构，包括语法、句法和语义等。预训练模型可以用作迁移学习的基础，为各种NLP任务提供丰富的特征表示。一些著名的预训练模型包括BERT、GPT-2、RoBERTa等。

3. 迁移学习与微调

迁移学习是一种利用预训练模型的知识来解决新任务的方法。通过在预训练模型的基础上进行微调，可以快速适应新任务，从而节省大量计算资源。微调是指在新任务的数据上对预训练模型的权重进行细微调整，使模型能够适应新任务。

4. 使用Transformers进行文本分类

from transformers import BertTokenizer, BertForSequenceClassification
import torch

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
model = BertForSequenceClassification.from_pretrained("bert-base-uncased")

inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
labels = torch.tensor([1]).unsqueeze(0)
outputs = model(**inputs, labels=labels)
loss = outputs.loss
logits = outputs.logits

5. 使用Transformers进行文本生成

from transformers import GPT2LMHeadModel, GPT2Tokenizer

tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
model = GPT2LMHeadModel.from_pretrained("gpt2")

inputs = tokenizer.encode("Once upon a time", return_tensors="pt")
outputs = model.generate(inputs, max_length=50, num_return_sequences=5)

for i, output in enumerate(outputs):
    print(f"Generated text {i+1}: {tokenizer.decode(output)}")

6. 在自己的数据上微调预训练模型

以下是使用Hugging Face Transformers在自定义数据集上进行微调的示例：

from transformers import BertTokenizer, BertForSequenceClassification, Trainer, TrainingArguments
import torch
import numpy as np
from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split

# 加载数据
newsgroups_data = fetch_20newsgroups(subset="all", remove=("headers", "footers", "quotes"))
X_train, X_test, y_train, y_test = train_test_split(newsgroups_data.data, newsgroups_data.target, test_size=0.2)

# 预处理函数
def preprocess(texts, labels, tokenizer):
    input_ids = tokenizer(texts, truncation=True, padding=True, return_tensors="pt")
    return input_ids, torch.tensor(labels)

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
model = BertForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=20)

# 预处理数据
X_train_processed, y_train_processed = preprocess(X_train, y_train, tokenizer)
X_test_processed, y_test_processed = preprocess(X_test, y_test, tokenizer)

# 设置训练参数
training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    logging_steps=100,
    evaluation_strategy="epoch",
)

# 训练模型
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=torch.utils.data.TensorDataset(X_train_processed, y_train_processed),
    eval_dataset=torch.utils.data.TensorDataset(X_test_processed, y_test_processed),
)
trainer.train()

7. 总结

本文介绍了Hugging Face Transformers库，包括预训练语言模型和迁移学习。我们通过实际代码示例演示了如何使用Transformers进行文本分类、生成等任务，以及如何在自定义数据集上微调预训练模型。

8. 参考文献

GitHub 加速计划 / tra / transformers

130.24 K

25.88 K

下载

最近提交(Master分支：2 个月前 )

52ea4aa5 * add xpu path for awq * update readme 9 小时前

7b3d615b 9 小时前

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m