Acumulação de gradientes com o Trainer
Você está configurando o Trainer do seu modelo de tradução de linguagem para usar acumulação de gradientes, de modo a treinar efetivamente com lotes maiores. Seu modelo vai simplificar traduções treinando em paráfrases do conjunto de dados MRPC. Configure os argumentos de treino para acumular gradientes! O exercício levará algum tempo para rodar com a chamada trainer.train().
O model, o dataset e a função compute_metrics() já foram definidos.
Este exercício faz parte do curso
Treinamento Eficiente de Modelos de IA com PyTorch
Instruções do exercício
- Defina o número de etapas de acumulação de gradientes como duas.
- Passe os argumentos de treino para o
Trainer.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
training_args = TrainingArguments(
output_dir="./results",
evaluation_strategy="epoch",
# Set the number of gradient accumulation steps to two
____=____
)
trainer = Trainer(
model=model,
# Pass in the training arguments to Trainer
____=____,
train_dataset=dataset["train"],
eval_dataset=dataset["validation"],
compute_metrics=compute_metrics,
)
trainer.train()