Steigungsakkumulation mit Trainer

Du richtest Trainer für dein Sprachübersetzungsmodell ein, um Gradientenakkumulation zu verwenden, damit du effektiv auf größeren Stapeln trainieren kannst. Dein Modell wird die Übersetzungen vereinfachen, indem es mit Umschreibungen aus dem MRPC-Datensatz trainiert wird. Konfiguriere die Trainingsargumente, um Gradienten zu akkumulieren! Die Übung wird mit dem Aufruf von trainer.train() einige Zeit in Anspruch nehmen.

Die Funktionen model, dataset und compute_metrics() sind vordefiniert.

Diese Übung ist Teil des Kurses

Effizientes KI-Modelltraining mit PyTorch

Anleitung zur Übung

Setze die Anzahl der Gradientenakkumulationsschritte auf zwei.
Gib die Trainingsargumente an Trainer weiter.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    # Set the number of gradient accumulation steps to two
    ____=____
)
trainer = Trainer(
    model=model,
    # Pass in the training arguments to Trainer
    ____=____,
    train_dataset=dataset["train"],
    eval_dataset=dataset["validation"],
    compute_metrics=compute_metrics,
)
trainer.train()

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Effizientes KI-Modelltraining mit PyTorch

Hohe SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Du bereitest die Daten für das verteilte Training vor, indem du die Daten auf mehrere Geräte aufteilst und das Modell auf jedes Gerät kopierst. Accelerator bietet eine bequeme Schnittstelle für die Datenaufbereitung und du lernst, wie du Bilder, Audio und Text als ersten Schritt für das verteilte Training vorverarbeitest.

Exercise 1: Modelle mit AutoModel und Accelerator vorbereiten Exercise 2: Laden und Prüfen von trainierten Modellen Exercise 3: Automatische Geräteplatzierung mit Accelerator Exercise 4: Bilder und Audiodaten für das Training vorverarbeiten Exercise 5: Bilddatensätze vorverarbeiten Exercise 6: Audio-Datensätze vorverarbeiten Exercise 7: Datensätze für verteiltes Training vorbereiten Exercise 8: Text für das Training vorverarbeiten Exercise 9: Text mit AutoTokenizer vorverarbeiten Exercise 10: Den Status des vorverarbeiteten Textes speichern und laden

Beim verteilten Training trainiert jedes Gerät parallel auf seinen Daten. Du wirst zwei Methoden für die verteilte Ausbildung untersuchen: Accelerator ermöglicht individuelle Trainingsschleifen und Trainer vereinfacht die Schnittstelle für das Training.

Exercise 1: Feinabstimmung der Modelle mit Trainer Exercise 2: Bewertungsmetriken definieren Exercise 3: Lege die TrainingArgumente fest Exercise 4: Den Trainer einrichten Exercise 5: Modelle mit Accelerator trainieren Exercise 6: Bereite ein Modell für die verteilte Ausbildung vor Exercise 7: Trainingsschleifen vor und nach dem Accelerator Exercise 8: Aufbau einer Trainingsschleife mit Accelerator Exercise 9: Modelle mit Accelerator evaluieren Exercise 10: Einstellen des Modells im Bewertungsmodus Exercise 11: Protokollierung von Bewertungsmetriken

Verteiltes Training belastet die Ressourcen bei großen Modellen und Datensätzen, aber du kannst diese Herausforderungen meistern, indem du die Speichernutzung, die Gerätekommunikation und die Berechnungseffizienz verbesserst. Du wirst die Techniken der Gradientenakkumulation, des Gradienten-Checkpointing, des lokalen stochastischen Gradientenabstiegs und des Trainings mit gemischter Präzision kennenlernen.

Exercise 1: Gradientenakkumulation Exercise 2: Gradientenakkumulation mit Accelerator Exercise 3: Steigungsakkumulation mit Trainer

Aktuelle Übung

Exercise 4: Gradient Checkpointing und lokale SGD Exercise 5: Gradient Checkpointing mit Accelerator Exercise 6: Gradient Checkpointing mit Trainer Exercise 7: Lokale SGD mit Accelerator Exercise 8: Gemischtes Präzisionstraining Exercise 9: Gemischtes Präzisionstraining mit grundlegendem PyTorch Exercise 10: Gemischtes Präzisionstraining mit Accelerator Exercise 11: Gemischtes Präzisionstraining mit Trainer

Du wirst dich auf Optimierer als Hebel zur Verbesserung der verteilten Trainingseffizienz konzentrieren und dabei die Kompromisse zwischen AdamW, Adafactor und 8-Bit-Adam hervorheben. Wenn du die Anzahl der Parameter reduzierst oder eine geringe Genauigkeit verwendest, kannst du den Speicherbedarf eines Modells verringern.

Exercise 1: Ausgewogenes Training mit AdamW Exercise 2: AdamW mit Trainer Exercise 3: AdamW mit Accelerator Exercise 4: Berechne die Größe des Optimierers Exercise 5: Speichereffizientes Training mit Adafactor Exercise 6: Adafactor mit Trainer Exercise 7: Adafactor mit Accelerator Exercise 8: Training mit gemischter Genauigkeit mit 8-Bit Adam Exercise 9: Den 8-Bit-Adam-Optimierer einrichten Exercise 10: 8-bit Adam mit Trainer Exercise 11: 8-Bit Adam mit Accelerator Exercise 12: Welcher Optimierer ist es?Exercise 13: Glückwunsch!