Acumulación de gradientes con Trainer
Estás configurando Trainer para tu modelo de traducción de idiomas para usar acumulación de gradientes y así poder entrenar efectivamente con lotes más grandes. Tu modelo simplificará traducciones entrenando con paráfrasis del conjunto de datos MRPC. ¡Configura los argumentos de entrenamiento para acumular gradientes! El ejercicio tardará un poco en ejecutarse con la llamada a trainer.train().
El model, el dataset y la función compute_metrics() ya están predefinidos.
Este ejercicio forma parte del curso
Entrenamiento eficiente de modelos de IA con PyTorch
Instrucciones del ejercicio
- Establece el número de pasos de acumulación de gradientes en dos.
- Pasa los argumentos de entrenamiento a
Trainer.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
training_args = TrainingArguments(
output_dir="./results",
evaluation_strategy="epoch",
# Set the number of gradient accumulation steps to two
____=____
)
trainer = Trainer(
model=model,
# Pass in the training arguments to Trainer
____=____,
train_dataset=dataset["train"],
eval_dataset=dataset["validation"],
compute_metrics=compute_metrics,
)
trainer.train()