Local SGD dengan Accelerator

Anda telah mengimplementasikan akumulasi gradien dan checkpointing gradien untuk merapikan penggunaan memori pada model terjemahan bahasa Anda. Pelatihan masih agak lambat, jadi Anda memutuskan menambahkan local SGD ke loop pelatihan untuk meningkatkan efisiensi komunikasi antarperangkat. Bangun loop pelatihan dengan local SGD!

model, train_dataloader, dan accelerator telah didefinisikan sebelumnya, dan LocalSGD sudah diimpor.

Latihan ini merupakan bagian dari kursus

Pelatihan Model AI Efisien dengan PyTorch

Instruksi latihan

Atur local_sgd_steps untuk menyinkronkan gradien setiap delapan langkah.
Jalankan langkah pada manajer konteks local SGD.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Set up a context manager to synchronize gradients every eight steps
with LocalSGD(accelerator=accelerator, model=model, local_sgd_steps=____, enabled=True) as local_sgd:
    for batch in train_dataloader:
        with accelerator.accumulate(model):
            inputs, targets = batch["input_ids"], batch["labels"]
            outputs = model(inputs, labels=targets)
            loss = outputs.loss
            accelerator.backward(loss)
            optimizer.step()
            lr_scheduler.step()
            optimizer.zero_grad()
            # Step the local SGD context manager
            local_sgd.____()

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Pelatihan Model AI Efisien dengan PyTorch

SkillTag.level.advancedSkillTag.label

4.9+

Mulai Kursus Gratis

Anda akan menyiapkan data untuk pelatihan terdistribusi dengan membagi data ke beberapa perangkat dan menyalin model pada setiap perangkat. Accelerator menyediakan antarmuka yang praktis untuk persiapan data, dan Anda akan mempelajari cara memproses awal gambar, audio, dan teks sebagai langkah pertama dalam pelatihan terdistribusi.

Exercise 1: Menyiapkan model dengan AutoModel dan Accelerator Exercise 2: Memuat dan memeriksa model pralatih Exercise 3: Penempatan perangkat otomatis dengan Accelerator Exercise 4: Praproses gambar dan audio untuk pelatihan Exercise 5: Praproses himpunan data gambar Exercise 6: Praproses himpunan data audio Exercise 7: Siapkan himpunan data untuk pelatihan terdistribusi Exercise 8: Praproses teks untuk pelatihan Exercise 9: Praproses teks dengan AutoTokenizer Exercise 10: Menyimpan dan memuat status teks yang telah dipraproses

Dalam pelatihan terdistribusi, setiap perangkat melatih model pada datanya masing-masing secara paralel. Anda akan menyelidiki dua metode untuk pelatihan terdistribusi: Accelerator memungkinkan loop pelatihan kustom, dan Trainer menyederhanakan antarmuka untuk pelatihan.

Exercise 1: Melakukan fine-tuning model dengan Trainer Exercise 2: Tetapkan metrik evaluasi Exercise 3: Tentukan TrainingArguments Exercise 4: Menyiapkan Trainer Exercise 5: Latih model dengan Accelerator Exercise 6: Siapkan model untuk pelatihan terdistribusi Exercise 7: Loop pelatihan sebelum dan sesudah Accelerator Exercise 8: Membangun loop pelatihan dengan Accelerator Exercise 9: Evaluasi model dengan Accelerator Exercise 10: Mengatur model ke mode evaluasi Exercise 11: Mencatat metrik evaluasi

Pelatihan terdistribusi membebani sumber daya saat menggunakan model dan himpunan data yang besar, tetapi Anda dapat mengatasinya dengan meningkatkan penggunaan memori, komunikasi antarperangkat, dan efisiensi komputasi. Anda akan mempelajari teknik gradient accumulation, gradient checkpointing, local stochastic gradient descent, dan mixed precision training.

Exercise 1: Akumulasi gradien Exercise 2: Akumulasi gradien dengan Accelerator Exercise 3: Akumulasi gradien dengan Trainer Exercise 4: Gradient checkpointing dan local SGD Exercise 5: Gradient checkpointing dengan Accelerator Exercise 6: Gradient checkpointing dengan Trainer Exercise 7: Local SGD dengan Accelerator

Latihan Saat Ini

Exercise 8: Pelatihan presisi campuran Exercise 9: Pelatihan mixed precision dengan PyTorch dasar Exercise 10: Pelatihan presisi campuran dengan Accelerator Exercise 11: Pelatihan presisi campuran dengan Trainer

Anda akan berfokus pada optimizer sebagai tuas untuk meningkatkan efisiensi pelatihan terdistribusi, dengan menyoroti pertukaran (trade-off) antara AdamW, Adafactor, dan 8-bit Adam. Mengurangi jumlah parameter atau menggunakan presisi rendah membantu menurunkan jejak memori model.

Exercise 1: Pelatihan seimbang dengan AdamW Exercise 2: AdamW dengan Trainer Exercise 3: AdamW dengan Accelerator Exercise 4: Hitung ukuran optimizer Exercise 5: Pelatihan hemat memori dengan Adafactor Exercise 6: Adafactor dengan Trainer Exercise 7: Adafactor dengan Accelerator Exercise 8: Pelatihan presisi campuran dengan 8-bit Adam Exercise 9: Menyiapkan pengoptimal Adam 8-bit Exercise 10: Adam 8-bit dengan Trainer Exercise 11: 8-bit Adam dengan Accelerator Exercise 12: Optimizer yang mana?Exercise 13: Selamat!