Gradientenakkumulation mit Accelerator

Du trainierst ein Sprachmodell, um Übersetzungen zu vereinfachen, indem du komplexe Sätze umschreibst, aber deinem Grafikprozessor geht der Speicher aus. Die Gradientenakkumulation ermöglicht es dem Modell, effektiv auf größeren Stapeln zu trainieren, indem es kleine Stapel verwendet, die in den Speicher passen. Du ziehst es vor, die Trainingsschleife explizit zu schreiben, um ihre Struktur zu sehen, also benutzt du Accelerator. Beachte, dass diese Übung tatsächlich auf der CPU läuft, aber der Code bleibt für die GPU derselbe.

Die Felder model, train_dataloader, optimizer und lr_scheduler sind vordefiniert.

Diese Übung ist Teil des Kurses

Effizientes KI-Modelltraining mit PyTorch

Anleitung zur Übung

Konfiguriere Accelerator() so, dass es eine Gradientenakkumulation mit zwei Schritten verwendet.
Richte einen Accelerator Kontextmanager ein, um die Akkumulation von Gradienten für die model zu ermöglichen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Configure Accelerator
accelerator = ____(____=____)
model, optimizer, train_dataloader, lr_scheduler = accelerator.prepare(model, optimizer, train_dataloader, lr_scheduler)
for batch in train_dataloader:
    # Set up an Accelerator context manager
    with ____.____(____):
        inputs, targets = batch["input_ids"], batch["labels"]
        outputs = model(inputs, labels=targets)
        loss = outputs.loss
        accelerator.backward(loss)
        optimizer.step()
        lr_scheduler.step()
        optimizer.zero_grad()
        print(f"Loss = {loss}")

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Effizientes KI-Modelltraining mit PyTorch

Hohe SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Du bereitest die Daten für das verteilte Training vor, indem du die Daten auf mehrere Geräte aufteilst und das Modell auf jedes Gerät kopierst. Accelerator bietet eine bequeme Schnittstelle für die Datenaufbereitung und du lernst, wie du Bilder, Audio und Text als ersten Schritt für das verteilte Training vorverarbeitest.

Exercise 1: Modelle mit AutoModel und Accelerator vorbereiten Exercise 2: Laden und Prüfen von trainierten Modellen Exercise 3: Automatische Geräteplatzierung mit Accelerator Exercise 4: Bilder und Audiodaten für das Training vorverarbeiten Exercise 5: Bilddatensätze vorverarbeiten Exercise 6: Audio-Datensätze vorverarbeiten Exercise 7: Datensätze für verteiltes Training vorbereiten Exercise 8: Text für das Training vorverarbeiten Exercise 9: Text mit AutoTokenizer vorverarbeiten Exercise 10: Den Status des vorverarbeiteten Textes speichern und laden

Beim verteilten Training trainiert jedes Gerät parallel auf seinen Daten. Du wirst zwei Methoden für die verteilte Ausbildung untersuchen: Accelerator ermöglicht individuelle Trainingsschleifen und Trainer vereinfacht die Schnittstelle für das Training.

Exercise 1: Feinabstimmung der Modelle mit Trainer Exercise 2: Bewertungsmetriken definieren Exercise 3: Lege die TrainingArgumente fest Exercise 4: Den Trainer einrichten Exercise 5: Modelle mit Accelerator trainieren Exercise 6: Bereite ein Modell für die verteilte Ausbildung vor Exercise 7: Trainingsschleifen vor und nach dem Accelerator Exercise 8: Aufbau einer Trainingsschleife mit Accelerator Exercise 9: Modelle mit Accelerator evaluieren Exercise 10: Einstellen des Modells im Bewertungsmodus Exercise 11: Protokollierung von Bewertungsmetriken

Verteiltes Training belastet die Ressourcen bei großen Modellen und Datensätzen, aber du kannst diese Herausforderungen meistern, indem du die Speichernutzung, die Gerätekommunikation und die Berechnungseffizienz verbesserst. Du wirst die Techniken der Gradientenakkumulation, des Gradienten-Checkpointing, des lokalen stochastischen Gradientenabstiegs und des Trainings mit gemischter Präzision kennenlernen.

Exercise 1: Gradientenakkumulation Exercise 2: Gradientenakkumulation mit Accelerator

Aktuelle Übung

Exercise 3: Steigungsakkumulation mit Trainer Exercise 4: Gradient Checkpointing und lokale SGD Exercise 5: Gradient Checkpointing mit Accelerator Exercise 6: Gradient Checkpointing mit Trainer Exercise 7: Lokale SGD mit Accelerator Exercise 8: Gemischtes Präzisionstraining Exercise 9: Gemischtes Präzisionstraining mit grundlegendem PyTorch Exercise 10: Gemischtes Präzisionstraining mit Accelerator Exercise 11: Gemischtes Präzisionstraining mit Trainer

Du wirst dich auf Optimierer als Hebel zur Verbesserung der verteilten Trainingseffizienz konzentrieren und dabei die Kompromisse zwischen AdamW, Adafactor und 8-Bit-Adam hervorheben. Wenn du die Anzahl der Parameter reduzierst oder eine geringe Genauigkeit verwendest, kannst du den Speicherbedarf eines Modells verringern.

Exercise 1: Ausgewogenes Training mit AdamW Exercise 2: AdamW mit Trainer Exercise 3: AdamW mit Accelerator Exercise 4: Berechne die Größe des Optimierers Exercise 5: Speichereffizientes Training mit Adafactor Exercise 6: Adafactor mit Trainer Exercise 7: Adafactor mit Accelerator Exercise 8: Training mit gemischter Genauigkeit mit 8-Bit Adam Exercise 9: Den 8-Bit-Adam-Optimierer einrichten Exercise 10: 8-bit Adam mit Trainer Exercise 11: 8-Bit Adam mit Accelerator Exercise 12: Welcher Optimierer ist es?Exercise 13: Glückwunsch!