CommencerCommencer gratuitement

Gradient checkpointing avec Trainer

Vous souhaitez utiliser le gradient checkpointing pour réduire l’empreinte mémoire de votre modèle. Vous avez vu comment écrire la boucle d’entraînement explicite avec Accelerator, et vous aimeriez maintenant utiliser une interface simplifiée sans boucles d’entraînement avec Trainer. L’exécution prendra un certain temps avec l’appel à trainer.train().

Configurez les arguments de Trainer pour activer le gradient checkpointing.

Cet exercice fait partie du cours

Entraîner efficacement des modèles d’IA avec PyTorch

Afficher le cours

Instructions

  • Utilisez quatre étapes d’accumulation de gradients dans TrainingArguments.
  • Activez le gradient checkpointing dans TrainingArguments.
  • Transmettez les arguments d’entraînement à Trainer.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

training_args = TrainingArguments(output_dir="./results",
                                  evaluation_strategy="epoch",
                                  # Use four gradient accumulation steps
                                  gradient_accumulation_steps=____,
                                  # Enable gradient checkpointing
                                  ____=____)
trainer = Trainer(model=model,
                  # Pass in the training arguments
                  ____=____,
                  train_dataset=dataset["train"],
                  eval_dataset=dataset["validation"],
                  compute_metrics=compute_metrics)
trainer.train()
Modifier et exécuter le code