Adafactor avec Trainer

Vous formez un modèle Transformer avec des milliards de paramètres pour votre service de traduction linguistique. Vous décidez donc d'essayer l'optimiseur Adafactor pour réduire les besoins en mémoire par rapport à AdamW. Préparez le formateur pour Adafactor!

Certains objets de formation ont été préchargés, notamment model, train_dataset, validation_dataset et compute_metrics.

Cet exercice fait partie du cours

Entraînement efficace de modèles d'IA avec PyTorch

Afficher le cours

Instructions

Spécifiez Adafactor comme optimiseur dans TrainingArguments.
Passez dans l'état de l'optimiseur pour imprimer la taille.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Specify Adafactor as an optimizer
training_args = TrainingArguments(output_dir="./results",
                                  evaluation_strategy="epoch",
                                  ____="____")

trainer = Trainer(model=model,
                  args=training_args,
                  train_dataset=train_dataset,
                  eval_dataset=validation_dataset,
                  compute_metrics=compute_metrics)
trainer.train()

# Pass in the optimizer state
total_size_megabytes, total_num_elements = compute_optimizer_size(____.____.____.values())
print(f"\nNumber of optimizer parameters: {total_num_elements:,}\nOptimizer size: {total_size_megabytes:.0f} MB")

Modifier et exécuter le code