Gemischtes Präzisionstraining mit grundlegendem PyTorch

Du wirst Fließkommadatentypen mit geringer Genauigkeit verwenden, um das Training für dein Sprachübersetzungsmodell zu beschleunigen. Zum Beispiel sind 16-Bit-Gleitkommadatentypen (float16) nur halb so groß wie ihre 32-Bit-Gegenstücke (float32). Das beschleunigt die Berechnungen von Matrixmultiplikationen und Faltungen. Erinnere dich daran, dass dies die Skalierung von Gradienten und Casting-Operationen in 16-Bit-Gleitkomma beinhaltet.

Einige Objekte wurden bereits vorgeladen: dataset, model, dataloader, und optimizer.

Diese Übung ist Teil des Kurses

Effizientes KI-Modelltraining mit PyTorch

Anleitung zur Übung

Definiere vor der Schleife einen Skalierer für die Farbverläufe mit einer Klasse aus der torch Bibliothek.
In der Schleife musst du die Operationen mithilfe eines Kontextmanagers aus der Bibliothek torch in den 16-Bit-Gleitkommadatentyp umwandeln.
In der Schleife skalierst du den Verlust und rufst .backward() auf, um skalierte Gradienten zu erstellen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Define a scaler for the gradients
scaler = torch.amp.____()
for batch in train_dataloader:
    inputs, targets = batch["input_ids"], batch["labels"]
    # Casts operations to mixed precision
    with torch.____(device_type="cpu", dtype=torch.____):
        outputs = model(inputs, labels=targets)
        loss = outputs.loss
    # Compute scaled gradients
    ____.____(loss).____()
    scaler.step(optimizer)
    scaler.update()
    optimizer.zero_grad()

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Effizientes KI-Modelltraining mit PyTorch

Hohe SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Du bereitest die Daten für das verteilte Training vor, indem du die Daten auf mehrere Geräte aufteilst und das Modell auf jedes Gerät kopierst. Accelerator bietet eine bequeme Schnittstelle für die Datenaufbereitung und du lernst, wie du Bilder, Audio und Text als ersten Schritt für das verteilte Training vorverarbeitest.

Exercise 1: Modelle mit AutoModel und Accelerator vorbereiten Exercise 2: Laden und Prüfen von trainierten Modellen Exercise 3: Automatische Geräteplatzierung mit Accelerator Exercise 4: Bilder und Audiodaten für das Training vorverarbeiten Exercise 5: Bilddatensätze vorverarbeiten Exercise 6: Audio-Datensätze vorverarbeiten Exercise 7: Datensätze für verteiltes Training vorbereiten Exercise 8: Text für das Training vorverarbeiten Exercise 9: Text mit AutoTokenizer vorverarbeiten Exercise 10: Den Status des vorverarbeiteten Textes speichern und laden

Beim verteilten Training trainiert jedes Gerät parallel auf seinen Daten. Du wirst zwei Methoden für die verteilte Ausbildung untersuchen: Accelerator ermöglicht individuelle Trainingsschleifen und Trainer vereinfacht die Schnittstelle für das Training.

Exercise 1: Feinabstimmung der Modelle mit Trainer Exercise 2: Bewertungsmetriken definieren Exercise 3: Lege die TrainingArgumente fest Exercise 4: Den Trainer einrichten Exercise 5: Modelle mit Accelerator trainieren Exercise 6: Bereite ein Modell für die verteilte Ausbildung vor Exercise 7: Trainingsschleifen vor und nach dem Accelerator Exercise 8: Aufbau einer Trainingsschleife mit Accelerator Exercise 9: Modelle mit Accelerator evaluieren Exercise 10: Einstellen des Modells im Bewertungsmodus Exercise 11: Protokollierung von Bewertungsmetriken

Verteiltes Training belastet die Ressourcen bei großen Modellen und Datensätzen, aber du kannst diese Herausforderungen meistern, indem du die Speichernutzung, die Gerätekommunikation und die Berechnungseffizienz verbesserst. Du wirst die Techniken der Gradientenakkumulation, des Gradienten-Checkpointing, des lokalen stochastischen Gradientenabstiegs und des Trainings mit gemischter Präzision kennenlernen.

Exercise 1: Gradientenakkumulation Exercise 2: Gradientenakkumulation mit Accelerator Exercise 3: Steigungsakkumulation mit Trainer Exercise 4: Gradient Checkpointing und lokale SGD Exercise 5: Gradient Checkpointing mit Accelerator Exercise 6: Gradient Checkpointing mit Trainer Exercise 7: Lokale SGD mit Accelerator Exercise 8: Gemischtes Präzisionstraining Exercise 9: Gemischtes Präzisionstraining mit grundlegendem PyTorch

Aktuelle Übung

Exercise 10: Gemischtes Präzisionstraining mit Accelerator Exercise 11: Gemischtes Präzisionstraining mit Trainer

Du wirst dich auf Optimierer als Hebel zur Verbesserung der verteilten Trainingseffizienz konzentrieren und dabei die Kompromisse zwischen AdamW, Adafactor und 8-Bit-Adam hervorheben. Wenn du die Anzahl der Parameter reduzierst oder eine geringe Genauigkeit verwendest, kannst du den Speicherbedarf eines Modells verringern.

Exercise 1: Ausgewogenes Training mit AdamW Exercise 2: AdamW mit Trainer Exercise 3: AdamW mit Accelerator Exercise 4: Berechne die Größe des Optimierers Exercise 5: Speichereffizientes Training mit Adafactor Exercise 6: Adafactor mit Trainer Exercise 7: Adafactor mit Accelerator Exercise 8: Training mit gemischter Genauigkeit mit 8-Bit Adam Exercise 9: Den 8-Bit-Adam-Optimierer einrichten Exercise 10: 8-bit Adam mit Trainer Exercise 11: 8-Bit Adam mit Accelerator Exercise 12: Welcher Optimierer ist es?Exercise 13: Glückwunsch!