Transformers预训练模型使用:翻译 Translation
transformers
huggingface/transformers: 是一个基于 Python 的自然语言处理库,它使用了 PostgreSQL 数据库存储数据。适合用于自然语言处理任务的开发和实现,特别是对于需要使用 Python 和 PostgreSQL 数据库的场景。特点是自然语言处理库、Python、PostgreSQL 数据库。
项目地址:https://gitcode.com/gh_mirrors/tra/transformers

·
翻译是将一个语言的文本转化为另一个语言文本的任务。
翻译任务的一个比较经典的数据集是WMT English to German dataset,将英语作为输入,对应德语作为输出(自己用的时候也可以反过来)。
使用pipeline
可以使用如下代码快速实现:
from transformers import pipeline
translator = pipeline("translation_en_to_de")
print(translator("Hugging Face is a technology company based in New York and Paris", max_length=40))
运行结果:
[{'translation_text': 'Hugging Face ist ein Technologieunternehmen mit Sitz in New York und Paris.'}]
由于翻译的pipeline依赖于PreTrainedModel.generate()
方法,因此我们可以像上面的max_length
一样覆盖默认的方法。
使用模型和文本标记器
具体步骤如下:
- 实例化文本标记器和模型。一般使用
BERT
或T5
模型。 - 定义一个需要翻译的文本。
- 加上
T5
翻译的特殊前缀translate English to German:
。 - 使用
PreTrainedModel.generate()
方法进行翻译。
示例代码:
cache_dir="./transformersModels/summarization"
"""
,cache_dir = cache_dir
"""
from transformers import AutoModelWithLMHead, AutoTokenizer
model = AutoModelWithLMHead.from_pretrained("t5-base",cache_dir = cache_dir, return_dict=True)
tokenizer = AutoTokenizer.from_pretrained("t5-base",cache_dir = cache_dir)
inputs = tokenizer.encode("translate English to German: Hugging Face is a technology company based in New York and Paris", return_tensors="pt")
outputs = model.generate(inputs, max_length=40, num_beams=4, early_stopping=True)
print(tokenizer.decode(outputs[0]))
运行结果:
Hugging Face ist ein Technologieunternehmen mit Sitz in New York und Paris.
与pipeline结果一致。




huggingface/transformers: 是一个基于 Python 的自然语言处理库,它使用了 PostgreSQL 数据库存储数据。适合用于自然语言处理任务的开发和实现,特别是对于需要使用 Python 和 PostgreSQL 数据库的场景。特点是自然语言处理库、Python、PostgreSQL 数据库。
最近提交(Master分支:7 个月前 )
c9d1e523
* Update installation.md
* Update README.md 7 小时前
d253de6d
* initial
* fix
* fix
* update
* fix
* fixes
* quantization
* attention mask visualizer
* multimodal
* small changes
* fix code samples 8 小时前
更多推荐
所有评论(0)