`
wx1568037608
  • 浏览: 33499 次
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

最强 NLP 预训练模型库 PyTorch-Transformers 正式开源:支持 6 个预训练框架,27 个预训练模型...

 
阅读更多

先上开源地址:

https://github.com/huggingface/pytorch-transformers#quick-tour

官网:

https://huggingface.co/pytorch-transformers/index.html

PyTorch-Transformers(正式名称为 pytorch-pretrained-bert)是一个用于自然语言处理(NLP)的最先进的预训练模型库。

该库目前包含下列模型的 PyTorch 实现、预训练模型权重、使用脚本和下列模型的转换工具:

  1. BERT (来自 Google):作者 Jacob Devlin、Ming-Wei Chang、Kenton Lee 和 Kristina Toutanova:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(《BERT:用于语言理解的深度双向 Transformer 的预训练》)

  2. GPT (来自 OpenAI):作者 Alec Radford、Karthik Narasimhan、Tim Salimans 和 Ilya Sutskever:Improving Language Understanding by Generative Pre-Training (《通过生成式预训练提高语言理解能力》)

  3. GPT-2 (来自 OpenAI):作者
    Alec Radford、Jeffrey Wu、Rewon Child、David Luan、Dario Amodei 和 Ilya Sutskever: Language Models are Unsupervised Multitask Learners (《语言模型是无监督的多任务学习器》)

  4. Transformer-XL (来自 Google/CMU):作者 Zihang Dai、Zhilin Yang、Yiming Yang, Jaime Carbonell、Quoc V. Le、Ruslan Salakhutdinov:Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context (《Transformer-XL:超长上下文关系的注意力语言模型》)

  5. XLNet (来自 Google/CMU):作者 Zihang Dai、Zhilin Yang、Yiming Yang、Jaime Carbonell、Quoc V. Le、Ruslan Salakhutdinov:​XLNet: Generalized Autoregressive Pretraining for Language Understanding (《XLNet:用于语言理解的广义自回归预训练》)

  6. XLM (来自 Facebook):作者 Guillaume Lample 和 Alexis Conneau:Cross-lingual Language Model Pretraining (《跨语言的语言模型预训练》)

这些实现已在几个数据集上进行测试(参见示例脚本),应该与原始实现的性能相当(例如,BERT 全词覆盖(Whole-Word-Masking)在 SQUAD 数据集上的 F1 分数为 93,OpenAI GPT 在 RocStories 上的 F1 分数为 88,Transformer-XL 在 WikiText 103 上的 困惑度为 18.3、XLNet 的 STS-B 上的皮尔逊积矩相关系数为 0.916)。用户可以在官方网站的文档示例部分中,找到有关性能的更多详细信息。

安 装

此 repo 在 Python 2.7 和 3.5+(示例代码仅在 Python 3.5+ 上通过测试)以及 PyTorch 0.4.1 到 1.1.0 上进行了测试。

使用 pip 进行安装

复制代码
 
 
pip install pytorch-transformers

从源进行安装

克隆存储库并运行如下命令:

复制代码
已复制
 
pip install [--editable] .

测试

该库和示例脚本包含了一系列测试。库测试可在 “tests” 文件夹中找到,示例脚本的测试可以在 “examples”文件夹 中找到。

这些测试可以使用 pytest 运行(如果需要,可以使用 pip install pytest 来安装 pytest)。

你可以使用以下命令从克隆存储库的根目录进行测试:

复制代码
 
 
python -m pytest -sv ./pytorch_transformers/tests/
 
python -m pytest -sv ./examples/

快速指南

让我们快速导览一下 PyTorch-Transformer。每个模型架构(Bert、GPT、GPT-2、Transformer-XL、XLNet、XLM)的详细示例均可在完整的文档中找到。

复制代码
 
 
import torch
 
from pytorch_transformers import *
   
 
# PyTorch-Transformers has a unified API
 
# for 6 transformer architectures and 27 pretrained weights.
 
# Model | Tokenizer | Pretrained weights shortcut
 
MODELS = [(BertModel, BertTokenizer, 'bert-base-uncased'),
 
(OpenAIGPTModel, OpenAIGPTTokenizer, 'openai-gpt'),
 
(GPT2Model, GPT2Tokenizer, 'gpt2'),
 
(TransfoXLModel, TransfoXLTokenizer, 'transfo-xl-wt103'),
 
(XLNetModel, XLNetTokenizer, 'xlnet-base-cased'),
 
(XLMModel, XLMTokenizer, 'xlm-mlm-enfr-1024')]
   
 
# Let's encode some text in a sequence of hidden-states using each model:
 
for model_class, tokenizer_class, pretrained_weights in MODELS:
 
# Load pretrained model/tokenizer
 
tokenizer = tokenizer_class.from_pretrained(pretrained_weights)
 
model = model_class.from_pretrained(pretrained_weights)
   
 
# Encode text
 
input_ids = torch.tensor([tokenizer.encode("Here is some text to encode")])
 
last_hidden_states = model(input_ids)[0] # Models outputs are now tuples
   
 
# Each architecture is provided with several class for fine-tuning on down-stream tasks, e.g.
 
BERT_MODEL_CLASSES = [BertModel, BertForPreTraining, BertForMaskedLM, BertForNextSentencePrediction,
 
BertForSequenceClassification, BertForMultipleChoice, BertForTokenClassification,
 
BertForQuestionAnswering]
   
 
# All the classes for an architecture can be initiated from pretrained weights for this architecture
 
# Note that additional weights added for fine-tuning are only initialized
 
# and need to be trained on the down-stream task
 
tokenizer = BertTokenizer.from_pretrained(from_pretrained('bert-base-uncased')
 
for model_class in BERT_MODEL_CLASSES:
 
# Load pretrained model/tokenizer
 
model = model_class.from_pretrained('bert-base-uncased')
   
 
# Models can return full list of hidden-states & attentions weights at each layer
 
model = model_class.from_pretrained(pretrained_weights,
 
output_hidden_states=True,
 
output_attentions=True)
 
input_ids = torch.tensor([tokenizer.encode("Let's see all hidden-states and attentions on this text")])
 
all_hidden_states, all_attentions = model(input_ids)[-2:]
   
 
# Models are compatible with Torchscript
 
model = model_class.from_pretrained(pretrained_weights, torchscript=True)
 
traced_model = torch.jit.trace(model, (input_ids,))
   
 
# Simple serialization for models and tokenizers
 
model.save_pretrained('./directory/to/save/') # save
 
model = model_class.from_pretrained('./directory/to/save/') # re-load
 
tokenizer.save_pretrained('./directory/to/save/') # save
 
tokenizer = tokenizer_class.from_pretrained(pretrained_weights)
   
 
# SOTA examples for GLUE, SQUAD, text generation...

微调 / 用法脚本的快速指南

该库包含几个示例脚本,这些脚本具有用于 NLU 和 NLG 任务的 SOTA 性能:

  • run_glue.py :一个针对九个不同的 GLUE 任务(序列级分类)对 BERT、XLNet 和 XLM 进行微调的示例

  • run_squad.py :一个针对问答数据集 square 2.0(令牌级分类)对 BERT、XLNet 和 XLM 的示例

  • run_generation.py :一个使用 GPT、GPT-2、Transformer-XL 和 XLNet 生成条件语言的示例

  • 其他特定于模型的示例(请参阅文档)

以下是这些脚本的三个快速使用示例:

run_glue.py :对 GLUE 任务进行微调用于序列分类

通用语言理解评估(General Language Understanding Evaluation benchmark,GLUE)基准是由九条句子或句子对语言理解任务的集合,用于评估和分析自然语言理解系统。

在运行这些 GLUE 任务之前,你应该通过运行此脚本下载 GLUE 数据,并将其解压缩到某个目录 $GLUE_DIR。

你还应该安装示例所需的附加包:

复制代码
 
 
pip install -r ./examples/requirements.txt
复制代码
 
 
export GLUE_DIR=/path/to/glue
 
export TASK_NAME=MRPC
   
 
python ./examples/run_glue.py \
 
--model_type bert \
 
--model_name_or_path bert-base-uncased \
 
--task_name $TASK_NAME \
 
--do_train \
 
--do_eval \
 
--do_lower_case \
 
--data_dir $GLUE_DIR/$TASK_NAME \
 
--max_seq_length 128 \
 
--per_gpu_eval_batch_size=8 \
 
--per_gpu_train_batch_size=8 \
 
--learning_rate 2e-5 \
 
--num_train_epochs 3.0 \
 
--output_dir /tmp/$TASK_NAME/
   

其中任务名称可以是 CoLA、SST-2、MRPC、STS-B、QQP、MNLI、QNLI、RTE、WNLI 中的一个。

开发集的结果将出现在指定 output_dir 的文本文件“eval_results.txt”中。对于 MNLI,由于有两个单独的 dev 集,匹配的和不匹配的,除了“/tmp/MNLI/”之外,还有一个单独的输出文件夹,名为“/tmp/MNLI-MM/”。

在 STS-B 回归任务上对 XLNet 模型进行微调

此示例代码使用 4 块 V100 GPU 的服务器上的并行训练,在 STS-B 语料库上对 XLNet 进行微调。秉性训练是使用多个 GPU 的一种简单方法(但比分布式训练速度更慢,灵活性也不如分布式训练,见下文)。

复制代码
 
 
export GLUE_DIR=/path/to/glue
   
 
python ./examples/run_glue.py \
 
--model_type xlnet \
 
--model_name_or_path xlnet-large-cased \
 
--do_train \
 
--do_eval \
 
--task_name=sts-b \
 
--data_dir=${GLUE_DIR}/STS-B \
 
--output_dir=./proc_data/sts-b-110 \
 
--max_seq_length=128 \
 
--per_gpu_eval_batch_size=8 \
 
--per_gpu_train_batch_size=8 \
 
--gradient_accumulation_steps=1 \
 
--max_steps=1200 \
 
--model_name=xlnet-large-cased \
 
--overwrite_output_dir \
 
--overwrite_cache \
 
--warmup_steps=120

在这台机器上,我们的批大小为 32,如果你的机器配置较差,请增加 gradient_accumulation_steps 以达到相同的批大小。这些超参数应该导致在开发集上的皮尔逊积矩相关系数(Pearson correlation coefficient )为 +0.917 。

在 MRPC 分类任务上对 Bert 模型进行微调

此示例代码使用 8 块 V100 GPU 上的分布式训练,对 Microsoft Research 语句改写语料库(Microsoft Research Paraphrase Corpus,MRPC)中的 Bert 全词覆盖模型进行微调,使其达到 F1>92。

使用这些超参数进行训练,我们得到了以下结果:

复制代码
 
 
python -m torch.distributed.launch --nproc_per_node 8 ./examples/run_glue.py \
 
--model_type bert \
 
--model_name_or_path bert-large-uncased-whole-word-masking \
 
--task_name MRPC \
 
--do_train \
 
--do_eval \
 
--do_lower_case \
 
--data_dir $GLUE_DIR/MRPC/ \
 
--max_seq_length 128 \
 
--per_gpu_eval_batch_size=8 \
 
--per_gpu_train_batch_size=8 \
 
--learning_rate 2e-5 \
 
--num_train_epochs 3.0 \
 
--output_dir /tmp/mrpc_output/ \
 
--overwrite_output_dir \
 
--overwrite_cache \

使用这些超参数进行训练,我们得到了以下结果:

复制代码
 
 
acc = 0.8823529411764706
 
acc_and_f1 = 0.901702786377709
 
eval_loss = 0.3418912578906332
 
f1 = 0.9210526315789473
 
global_step = 174
 
loss = 0.07231863956341798

run_squad.py :对 SQuAD 进行微调用于问答系统

此示例代码使用 8 块 V100 GPU 上的分布式训练和 BERT 全词覆盖模型对 SQuAD 数据集上的 BERT 进行微调,以在 SQuAD 上达到 F1 的分数大于 93:

复制代码
 
 
python -m torch.distributed.launch --nproc_per_node=8 ./examples/run_squad.py \
 
--model_type bert \
 
--model_name_or_path bert-large-uncased-whole-word-masking \
 
--do_train \
 
--do_eval \
 
--do_lower_case \
 
--train_file $SQUAD_DIR/train-v1.1.json \
 
--predict_file $SQUAD_DIR/dev-v1.1.json \
 
--learning_rate 3e-5 \
 
--num_train_epochs 2 \
 
--max_seq_length 384 \
 
--doc_stride 128 \
 
--output_dir ../models/wwm_uncased_finetuned_squad/ \
 
--per_gpu_eval_batch_size=3 \
 
--per_gpu_train_batch_size=3 \

使用这些超参数进行训练,我们得到了以下结果:

复制代码
 
 
python $SQUAD_DIR/evaluate-v1.1.py $SQUAD_DIR/dev-v1.1.json ../models/wwm_uncased_finetuned_squad/predictions.json
 
{"exact_match": 86.91579943235573, "f1": 93.1532499015869}

这是作为 bert-large-uncased-whole-word-masking-finetuned-squad 提供的模型。

run_generation.py :使用 GPT、GPT-2、Transformer-XL 和 XLNet 生成文本

还包括一个条件生成脚本,用于根据提示生成文本。生成脚本包括 Aman Rusia 提出的技巧,利用 Transformer-XL 和 XLNet 等内存模型获得高质量的生成(包括一个预定义的文本,使短输入更长)。

下面是演示如何使用 OpenAI GPT-2 模型的小版本来运行脚本:

复制代码
 
 
python ./examples/run_generation.py \
 
--model_type=gpt2 \
 
--length=20 \
 
--model_name_or_path=gpt2 \

从 pytorch-pretrained-bert 迁移到 pytorch-transformers

下面是一个快速总结,阐述了从 pytorch-pretrained-bert 迁移到 pytorch-transformers 时应该注意的事项。

模型总是输出 tuples

从 pytorch-pretrained-bert 迁移到 pytorch-transformers 时,主要的突破性变化是模型的正演方法始终根据模型和配置参数输出包含各种元素的 tuple。

每个模型的元组的确切内容,在模型的文档注释和文档中有详细说明。

在几乎所有情况下,你都可以将输出的第一个元素作为之前在 pytorch-pretrained-bert 中使用的输出。

下面是一个 pytorch-pretrained-bert 到 pytorch-transformers 转换的示例,用于 BertForSequenceClassification 分类模型:

复制代码
 
 
# Let's load our model
 
model = BertForSequenceClassification.from_pretrained('bert-base-uncased')
   
 
# If you used to have this line in pytorch-pretrained-bert:
 
loss = model(input_ids, labels=labels)
   
 
# Now just use this line in pytorch-transformers to extract the loss from the output tuple:
 
outputs = model(input_ids, labels=labels)
 
loss = outputs[0]
   
 
# In pytorch-transformers you can also have access to the logits:
 
loss, logits = outputs[:2]
   
 
# And even the attention weigths if you configure the model to output them (and other outputs too, see the docstrings and documentation)
 
model = BertForSequenceClassification.from_pretrained('bert-base-uncased', output_attentions=True)
 
outputs = model(input_ids, labels=labels)
 
loss, logits, attentions = outputs

序列化

突破性更改:当时用 from_pretrained() 方法实例化时,模型现在默认设置为评估模式。要训练它们,不要忘记将它们设置回训练模式 ( model.train() ),以激活 dropout 模块。

此外,虽然不是突破性更改,但序列化方法已经标准化,如果你以前使用过任何其他序列化方法,你可能应该切换到新方法 save_pretrained(save_directory) 。

下面是一个例子:

复制代码
 
 
### Let's load a model and tokenizer
 
model = BertForSequenceClassification.from_pretrained('bert-base-uncased')
 
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
   
 
### Do some stuff to our model and tokenizer
 
# Ex: add new tokens to the vocabulary and embeddings of our model
 
tokenizer.add_tokens(['[SPECIAL_TOKEN_1]', '[SPECIAL_TOKEN_2]'])
 
model.resize_token_embeddings(len(tokenizer))
 
# Train our model
 
train(model)
   
 
### Now let's save our model and tokenizer to a directory
 
model.save_pretrained('./my_saved_model_directory/')
 
tokenizer.save_pretrained('./my_saved_model_directory/')
   
 
### Reload the model and the tokenizer
 
model = BertForSequenceClassification.from_pretrained('./my_saved_model_directory/')
 
tokenizer = BertTokenizer.from_pretrained('./my_saved_model_directory/')

优化器:BertAdam 和 OpenAIAdam 现在是 AdamW,定时任务是标准的 PyTorch schedules。

之前包含的两个优化器 BertAdam 和 OpenAIAdam ,现在已被单个 AdamW 优化器取代。新的优化器 AdamW 与 PyTorch AdamW 优化器 API 相匹配。

任务调度现在是标准的 PyTorch learning rate schedulers 程序,而不再是优化器的一部分。

下面是 BertAdam 到 AdamW 的转换示例,前者具有线性预热(linear warmup)和衰减计划,后者有相同的任务调度。

复制代码
 

 
# Parameters:
 
lr = 1e-3
 
num_total_steps = 1000
 
num_warmup_steps = 100
 
warmup_proportion = float(num_warmup_steps) / float(num_total_steps) # 0.1
   
 
### Previously BertAdam optimizer was instantiated like this:
 
optimizer = BertAdam(model.parameters(), lr=lr, schedule='warmup_linear', warmup=warmup_proportion, t_total=num_total_steps)
 
### and used like this:
 
for batch in train_data:
 
loss = model(batch)
 
loss.backward()
 
optimizer.step()
   
 
### In PyTorch-Transformers, optimizer and schedules are splitted and instantiated like this:
 
optimizer = AdamW(model.parameters(), lr=lr, correct_bias=False) # To reproduce BertAdam specific behavior set correct_bias=False
 
scheduler = WarmupLinearSchedule(optimizer, warmup_steps=num_warmup_steps, t_total=num_total_steps) # PyTorch scheduler
 
### and used like this:
 
for batch in train_data:
 
loss = model(batch)
 
loss.backward()
 
scheduler.step()
 
optimizer.step()
分享到:
评论

相关推荐

    PyPI 官网下载 | pytorch-fast-transformers-0.1.2.tar.gz

    Fast-Transformers是NVIDIA开源的一个库,专为PyTorch设计,旨在加速Transformer模型的计算过程。Transformer模型自Vaswani等人在2017年提出以来,已经在自然语言处理(NLP)领域取得了显著成就。然而,Transformer...

    d2l-zh-pytorch.pdf

    1. PyTorch 的安装和基本概念:PyTorch 是一个开源的机器学习库,支持深度学习和机器学习模型的训练和部署。安装 PyTorch 需要 Python 3.7 或更高版本,并且可以使用 pip 进行安装。 2. 数据操作:PyTorch 中的数据...

    Python库 | albert_pytorch-0.0.1.7.tar.gz

    BERT(Bidirectional Encoder Representations from Transformers)是Google于2018年提出的预训练语言模型,它通过双向Transformer架构在大量未标注文本上进行预训练,然后在特定任务上进行微调,取得了许多NLP任务...

    基于PyTorch的开源NLP研究库

    以下是一些基于PyTorch的开源自然语言处理(NLP)库,它们提供了丰富的功能和工具,可用于文本处理、模型训练等任务: 1. **PyTorch-NLP**: - PyTorch-NLP是一个专为PyTorch深度学习框架设计的NLP工具包,提供了...

    Bert-Chinese-Text-Classification-Pytorch-master.zip.zip

    2. **中文文本分类**:这是NLP(自然语言处理)领域的一个常见任务,旨在将文本分配到预定义的类别中。在这个项目中,BERT模型被用于对中文文本进行分类,可能是情感分析、主题分类等。 3. **PyTorch框架**:...

    Bert-Pytorch-TextClassification-master

    该项目的核心是利用Transformer架构中的预训练模型BERT(Bidirectional Encoder Representations from Transformers)来处理文本数据,进行情感分析、主题分类等任务。 【描述】"Bert-Pytorch-TextClassification-...

    RoBERTa中文预训练模型.zip

    一种强大的用于预训练自然语言处理(NLP)系统的优化方法,改进了Transformers或BERT的双向编码器表示形式,这是Google在2018年发布的自监督方法。 RoBERTa在广泛使用的NLP基准通用语言理解评估(GLUE)上产生最...

    电商评论观点挖掘的比赛,基于pytorch-transformers版本.zip

    这个比赛旨在利用自然语言处理(NLP)技术,特别是预训练模型BERT(Bidirectional Encoder Representations from Transformers),以及条件随机场(CRF, Conditional Random Fields)来提取和分析电商评论中的关键...

    PyPI 官网下载 | compressive-transformer-pytorch-0.3.1.tar.gz

    在实际应用中,Compressive Transformer可能会结合其他PyTorch库,如Hugging Face的Transformers,用于预训练模型的加载和微调,或者使用torchtext处理自然语言数据。此外,对于长序列的处理,它可能还利用到优化...

    基于pytorch的中文语言模型预训练模型源码

    本项目专注于使用PyTorch实现中文语言模型的预训练,这在自然语言处理(NLP)任务中至关重要。预训练模型是通过在大规模无标注文本数据上训练得到的,这些模型能够捕获语言的基本结构和模式,后续可以应用于诸如机器...

    Awesome-pytorch-list-CN版本:Awesome-pytorch-list翻译工作进行中.....

    PyTorch是Facebook的AI研究团队开发的一个开源深度学习框架,它在机器学习领域中被广泛使用,特别是在自然语言处理(NLP)、计算机视觉(CV)和数据科学等领域。PyTorch以其灵活性、易用性和动态计算图特性而受到...

    bert-chinese-pytorch.rar

    标题中的"bert-chinese-pytorch.rar"是一个与自然语言处理(NLP)相关的压缩包文件,特别提及了BERT(Bidirectional Encoder Representations from Transformers)的中文预训练模型,并且是基于PyTorch框架实现的。...

    基于python的中文预训练生成模型代码实现

    在自然语言处理领域,预训练模型已经成为理解和生成中文文本的核心技术。Python作为一种广泛使用的编程语言,因其丰富的库和简洁的语法,成为了实现这些模型的首选工具。本篇将深入探讨如何利用Python实现基于中文的...

    PyPI 官网下载 | pytorch_pretrained_bert-0.3.0.tar.gz

    在自然语言处理领域,BERT(Bidirectional Encoder Representations from Transformers)模型是Google在2018年提出的一种预训练语言模型,它在多项NLP任务上取得了显著的性能提升。本文将围绕PyTorch中的预训练BERT...

    pytorch-pocket-reference.rar

    PyTorch是一个流行的开源库,主要用于构建和训练神经网络,尤其在自然语言处理(NLP)和计算机视觉(CV)领域有广泛应用。它以其动态计算图和易于使用的API著称,这使得它成为研究和开发的首选工具。 PyTorch的核心...

    transformers pytorch 版语言模型 源码

    标题 "transformers PyTorch版语言模型 源码" 提到的核心概念是`transformers`,这是一个在自然语言处理(NLP)领域广泛应用的库,由Hugging Face团队开发。`transformers`库提供了多种预训练的深度学习模型,如BERT...

    自然语言处理PyTorch.pdf.zip

    自然语言处理(NLP)是计算机科学领域的一个重要分支,主要关注...以上是关于“自然语言处理PyTorch”主题的一些关键知识点,通过学习和实践,开发者能够利用PyTorch解决复杂NLP问题,并构建高性能的自然语言处理系统。

    大语言模型-基于Pytorch实现BioBERT-附项目源码-优质项目实战.zip

    标题和描述中提到的"大语言模型-基于Pytorch实现BioBERT-附项目源码-优质项目实战"是一个关于自然语言处理(NLP)的项目,重点在于使用PyTorch框架来实现BioBERT,这是一个专门为生物医学领域优化的预训练语言模型。...

    chinese-roberta-wwm-ext.rar

    在PyTorch中,可以使用transformers库来加载和使用Chinese RoBERTa-wwm-ext模型,这个库由Hugging Face团队维护,集成了多种预训练模型。 1. 模型加载:首先,需要安装transformers库,然后通过`from transformers ...

    PyPI 官网下载 | jliang-mlflow-transformers-flavor-1.5.3.dev1.tar.gz

    Hugging Face的Transformers是自然语言处理领域的一个强大工具,提供了预训练的模型,涵盖了多种任务,如文本分类、问答系统、机器翻译等。它包含了许多最先进的模型,如BERT、GPT和RoBERTa等,这些模型可以用于微调...

Global site tag (gtag.js) - Google Analytics