Acumulação de gradiente com o Trainer

Você está configurando o site Trainer para que o seu modelo de tradução de idiomas use a acumulação de gradiente, de modo que possa treinar efetivamente em lotes maiores. Seu modelo simplificará as traduções treinando em paráfrases do conjunto de dados MRPC. Configure os argumentos de treinamento para acumular gradientes! O exercício levará algum tempo para ser executado com a chamada para trainer.train().

As funções model, dataset e compute_metrics() foram predefinidas.

Este exercício faz parte do curso

Treinamento eficiente de modelos de IA com PyTorch

Ver curso

Instruções do exercício

Defina o número de etapas de acumulação de gradiente como dois.
Passe os argumentos de treinamento para Trainer.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    # Set the number of gradient accumulation steps to two
    ____=____
)
trainer = Trainer(
    model=model,
    # Pass in the training arguments to Trainer
    ____=____,
    train_dataset=dataset["train"],
    eval_dataset=dataset["validation"],
    compute_metrics=compute_metrics,
)
trainer.train()

Editar e executar o código