Adafactor mit Accelerator

Du hast einen Proof-of-Concept von Adafactor mit Trainer demonstriert, um dein Sprachübersetzungsmodell mit reduzierten Speicheranforderungen zu trainieren. Jetzt möchtest du deine Trainingsschleife mit Accelerator anpassen. Baue die Trainingsschleife auf, um Adafactor zu verwenden!

Die Funktion compute_optimizer_size() ist vordefiniert. Einige Trainingsobjekte sind bereits geladen: model, train_dataloader, und accelerator.

Diese Übung ist Teil des Kurses

Effizientes KI-Modelltraining mit PyTorch

Anleitung zur Übung

Übergib die Modellparameter an Adafactor, wenn du die optimizer definierst.
Gib den Optimierungsstatus ein, um die Größe zu drucken.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Pass the model parameters to Adafactor
optimizer = ____(params=____.____())
model, optimizer, train_dataloader = accelerator.prepare(model, optimizer, train_dataloader)

for batch in train_dataloader:
    inputs, targets = batch["input_ids"], batch["labels"]
    outputs = model(inputs, labels=targets)
    loss = outputs.loss
    accelerator.backward(loss)
    optimizer.step()
    optimizer.zero_grad()

# Pass in the optimizer state
total_size_megabytes, total_num_elements = compute_optimizer_size(____.____.values())
print(f"Number of optimizer parameters: {total_num_elements:,}\nOptimizer size: {total_size_megabytes:.0f} MB")

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

Effizientes KI-Modelltraining mit PyTorch

Hohe SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Du bereitest die Daten für das verteilte Training vor, indem du die Daten auf mehrere Geräte aufteilst und das Modell auf jedes Gerät kopierst. Accelerator bietet eine bequeme Schnittstelle für die Datenaufbereitung und du lernst, wie du Bilder, Audio und Text als ersten Schritt für das verteilte Training vorverarbeitest.

Exercise 1: Modelle mit AutoModel und Accelerator vorbereiten Exercise 2: Laden und Prüfen von trainierten Modellen Exercise 3: Automatische Geräteplatzierung mit Accelerator Exercise 4: Bilder und Audiodaten für das Training vorverarbeiten Exercise 5: Bilddatensätze vorverarbeiten Exercise 6: Audio-Datensätze vorverarbeiten Exercise 7: Datensätze für verteiltes Training vorbereiten Exercise 8: Text für das Training vorverarbeiten Exercise 9: Text mit AutoTokenizer vorverarbeiten Exercise 10: Den Status des vorverarbeiteten Textes speichern und laden

Beim verteilten Training trainiert jedes Gerät parallel auf seinen Daten. Du wirst zwei Methoden für die verteilte Ausbildung untersuchen: Accelerator ermöglicht individuelle Trainingsschleifen und Trainer vereinfacht die Schnittstelle für das Training.

Exercise 1: Feinabstimmung der Modelle mit Trainer Exercise 2: Bewertungsmetriken definieren Exercise 3: Lege die TrainingArgumente fest Exercise 4: Den Trainer einrichten Exercise 5: Modelle mit Accelerator trainieren Exercise 6: Bereite ein Modell für die verteilte Ausbildung vor Exercise 7: Trainingsschleifen vor und nach dem Accelerator Exercise 8: Aufbau einer Trainingsschleife mit Accelerator Exercise 9: Modelle mit Accelerator evaluieren Exercise 10: Einstellen des Modells im Bewertungsmodus Exercise 11: Protokollierung von Bewertungsmetriken

Verteiltes Training belastet die Ressourcen bei großen Modellen und Datensätzen, aber du kannst diese Herausforderungen meistern, indem du die Speichernutzung, die Gerätekommunikation und die Berechnungseffizienz verbesserst. Du wirst die Techniken der Gradientenakkumulation, des Gradienten-Checkpointing, des lokalen stochastischen Gradientenabstiegs und des Trainings mit gemischter Präzision kennenlernen.

Exercise 1: Gradientenakkumulation Exercise 2: Gradientenakkumulation mit Accelerator Exercise 3: Steigungsakkumulation mit Trainer Exercise 4: Gradient Checkpointing und lokale SGD Exercise 5: Gradient Checkpointing mit Accelerator Exercise 6: Gradient Checkpointing mit Trainer Exercise 7: Lokale SGD mit Accelerator Exercise 8: Gemischtes Präzisionstraining Exercise 9: Gemischtes Präzisionstraining mit grundlegendem PyTorch Exercise 10: Gemischtes Präzisionstraining mit Accelerator Exercise 11: Gemischtes Präzisionstraining mit Trainer

Du wirst dich auf Optimierer als Hebel zur Verbesserung der verteilten Trainingseffizienz konzentrieren und dabei die Kompromisse zwischen AdamW, Adafactor und 8-Bit-Adam hervorheben. Wenn du die Anzahl der Parameter reduzierst oder eine geringe Genauigkeit verwendest, kannst du den Speicherbedarf eines Modells verringern.

Exercise 1: Ausgewogenes Training mit AdamW Exercise 2: AdamW mit Trainer Exercise 3: AdamW mit Accelerator Exercise 4: Berechne die Größe des Optimierers Exercise 5: Speichereffizientes Training mit Adafactor Exercise 6: Adafactor mit Trainer Exercise 7: Adafactor mit Accelerator

Aktuelle Übung

Exercise 8: Training mit gemischter Genauigkeit mit 8-Bit Adam Exercise 9: Den 8-Bit-Adam-Optimierer einrichten Exercise 10: 8-bit Adam mit Trainer Exercise 11: 8-Bit Adam mit Accelerator Exercise 12: Welcher Optimierer ist es?Exercise 13: Glückwunsch!