Gradient checkpointing avec Trainer
Vous souhaitez utiliser le gradient checkpointing pour réduire l’empreinte mémoire de votre modèle. Vous avez vu comment écrire la boucle d’entraînement explicite avec Accelerator, et vous aimeriez maintenant utiliser une interface simplifiée sans boucles d’entraînement avec Trainer. L’exécution prendra un certain temps avec l’appel à trainer.train().
Configurez les arguments de Trainer pour activer le gradient checkpointing.
Cet exercice fait partie du cours
Entraîner efficacement des modèles d’IA avec PyTorch
Instructions
- Utilisez quatre étapes d’accumulation de gradients dans
TrainingArguments. - Activez le gradient checkpointing dans
TrainingArguments. - Transmettez les arguments d’entraînement à
Trainer.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
training_args = TrainingArguments(output_dir="./results",
evaluation_strategy="epoch",
# Use four gradient accumulation steps
gradient_accumulation_steps=____,
# Enable gradient checkpointing
____=____)
trainer = Trainer(model=model,
# Pass in the training arguments
____=____,
train_dataset=dataset["train"],
eval_dataset=dataset["validation"],
compute_metrics=compute_metrics)
trainer.train()