Den 8-Bit-Adam-Optimierer einrichten

Du stellst fest, dass das Training deines Transformer-Modells für Echtzeit-Sprachübersetzungen mit Adafactor nicht effektiv ist. Als Alternative entscheidest du dich, einen 8-Bit-Adam-Optimierer auszuprobieren, um den Speicherplatz im Vergleich zu Adam um etwa 75% zu reduzieren.

Die Bibliothek bitsandbytes wurde als bnb importiert, TrainingArguments wurde als args definiert, und optimizer_grouped_parameters wurde vorgeladen. Beachte, dass die Übung eine Warnmeldung über libbitsandbytes_cpu.so ausgibt, aber du kannst diese Warnung ignorieren und die Übung beenden.

Diese Übung ist Teil des Kurses

Effizientes KI-Modelltraining mit PyTorch

Anleitung zur Übung

Richte den 8-Bit-Adam-Optimierer aus der Bibliothek bitsandbytes ein.
Gib die Parameter beta1 und beta2 an den 8-Bit-Adam-Optimierer weiter.
Gib den Parameter epilson an den 8-Bit-Adam-Optimierer weiter.
Drucke die Eingabeparameter des 8-Bit-Adam-Optimierers aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Instantiate the 8-bit Adam optimizer
adam_bnb_optim = ____.____.____(optimizer_grouped_parameters,
                                # Pass in the beta1 and beta2 parameters
                                betas=(args.____, args.____),
                                # Pass in the epilson parameter
                                eps=args.____,
                                lr=args.learning_rate)

# Print the input parameters
print(f"beta1 = {args.____}")
print(f"beta2 = {args.____}")
print(f"epsilon = {args.____}")
print(f"learning_rate = {args.learning_rate}")

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Effizientes KI-Modelltraining mit PyTorch

Hohe SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Du bereitest die Daten für das verteilte Training vor, indem du die Daten auf mehrere Geräte aufteilst und das Modell auf jedes Gerät kopierst. Accelerator bietet eine bequeme Schnittstelle für die Datenaufbereitung und du lernst, wie du Bilder, Audio und Text als ersten Schritt für das verteilte Training vorverarbeitest.

Exercise 1: Modelle mit AutoModel und Accelerator vorbereiten Exercise 2: Laden und Prüfen von trainierten Modellen Exercise 3: Automatische Geräteplatzierung mit Accelerator Exercise 4: Bilder und Audiodaten für das Training vorverarbeiten Exercise 5: Bilddatensätze vorverarbeiten Exercise 6: Audio-Datensätze vorverarbeiten Exercise 7: Datensätze für verteiltes Training vorbereiten Exercise 8: Text für das Training vorverarbeiten Exercise 9: Text mit AutoTokenizer vorverarbeiten Exercise 10: Den Status des vorverarbeiteten Textes speichern und laden

Beim verteilten Training trainiert jedes Gerät parallel auf seinen Daten. Du wirst zwei Methoden für die verteilte Ausbildung untersuchen: Accelerator ermöglicht individuelle Trainingsschleifen und Trainer vereinfacht die Schnittstelle für das Training.

Exercise 1: Feinabstimmung der Modelle mit Trainer Exercise 2: Bewertungsmetriken definieren Exercise 3: Lege die TrainingArgumente fest Exercise 4: Den Trainer einrichten Exercise 5: Modelle mit Accelerator trainieren Exercise 6: Bereite ein Modell für die verteilte Ausbildung vor Exercise 7: Trainingsschleifen vor und nach dem Accelerator Exercise 8: Aufbau einer Trainingsschleife mit Accelerator Exercise 9: Modelle mit Accelerator evaluieren Exercise 10: Einstellen des Modells im Bewertungsmodus Exercise 11: Protokollierung von Bewertungsmetriken

Verteiltes Training belastet die Ressourcen bei großen Modellen und Datensätzen, aber du kannst diese Herausforderungen meistern, indem du die Speichernutzung, die Gerätekommunikation und die Berechnungseffizienz verbesserst. Du wirst die Techniken der Gradientenakkumulation, des Gradienten-Checkpointing, des lokalen stochastischen Gradientenabstiegs und des Trainings mit gemischter Präzision kennenlernen.

Exercise 1: Gradientenakkumulation Exercise 2: Gradientenakkumulation mit Accelerator Exercise 3: Steigungsakkumulation mit Trainer Exercise 4: Gradient Checkpointing und lokale SGD Exercise 5: Gradient Checkpointing mit Accelerator Exercise 6: Gradient Checkpointing mit Trainer Exercise 7: Lokale SGD mit Accelerator Exercise 8: Gemischtes Präzisionstraining Exercise 9: Gemischtes Präzisionstraining mit grundlegendem PyTorch Exercise 10: Gemischtes Präzisionstraining mit Accelerator Exercise 11: Gemischtes Präzisionstraining mit Trainer

Du wirst dich auf Optimierer als Hebel zur Verbesserung der verteilten Trainingseffizienz konzentrieren und dabei die Kompromisse zwischen AdamW, Adafactor und 8-Bit-Adam hervorheben. Wenn du die Anzahl der Parameter reduzierst oder eine geringe Genauigkeit verwendest, kannst du den Speicherbedarf eines Modells verringern.

Exercise 1: Ausgewogenes Training mit AdamW Exercise 2: AdamW mit Trainer Exercise 3: AdamW mit Accelerator Exercise 4: Berechne die Größe des Optimierers Exercise 5: Speichereffizientes Training mit Adafactor Exercise 6: Adafactor mit Trainer Exercise 7: Adafactor mit Accelerator Exercise 8: Training mit gemischter Genauigkeit mit 8-Bit Adam Exercise 9: Den 8-Bit-Adam-Optimierer einrichten

Aktuelle Übung

Exercise 10: 8-bit Adam mit Trainer Exercise 11: 8-Bit Adam mit Accelerator Exercise 12: Welcher Optimierer ist es?Exercise 13: Glückwunsch!