Akumulasi gradien dengan Accelerator

Anda sedang melatih sebuah model bahasa untuk menyederhanakan terjemahan dengan memparafrasekan kalimat kompleks, tetapi GPU Anda kehabisan memori. Akumulasi gradien memungkinkan model berlatih secara efektif pada batch yang lebih besar dengan menggunakan batch kecil yang muat di memori. Anda memilih menulis loop pelatihan secara eksplisit agar dapat melihat strukturnya, sehingga Anda menggunakan Accelerator. Perhatikan bahwa latihan ini sebenarnya berjalan di CPU, tetapi kodenya tetap sama untuk GPU.

model, train_dataloader, optimizer, dan lr_scheduler telah didefinisikan sebelumnya.

Latihan ini merupakan bagian dari kursus

Pelatihan Model AI Efisien dengan PyTorch

Instruksi latihan

Konfigurasikan Accelerator() untuk menggunakan akumulasi gradien dengan dua langkah.
Siapkan context manager Accelerator untuk mengaktifkan akumulasi gradien pada model.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Configure Accelerator
accelerator = ____(____=____)
model, optimizer, train_dataloader, lr_scheduler = accelerator.prepare(model, optimizer, train_dataloader, lr_scheduler)
for batch in train_dataloader:
    # Set up an Accelerator context manager
    with ____.____(____):
        inputs, targets = batch["input_ids"], batch["labels"]
        outputs = model(inputs, labels=targets)
        loss = outputs.loss
        accelerator.backward(loss)
        optimizer.step()
        lr_scheduler.step()
        optimizer.zero_grad()
        print(f"Loss = {loss}")

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Pelatihan Model AI Efisien dengan PyTorch

SkillTag.level.advancedSkillTag.label

4.9+

Mulai Kursus Gratis

Anda akan menyiapkan data untuk pelatihan terdistribusi dengan membagi data ke beberapa perangkat dan menyalin model pada setiap perangkat. Accelerator menyediakan antarmuka yang praktis untuk persiapan data, dan Anda akan mempelajari cara memproses awal gambar, audio, dan teks sebagai langkah pertama dalam pelatihan terdistribusi.

Exercise 1: Menyiapkan model dengan AutoModel dan Accelerator Exercise 2: Memuat dan memeriksa model pralatih Exercise 3: Penempatan perangkat otomatis dengan Accelerator Exercise 4: Praproses gambar dan audio untuk pelatihan Exercise 5: Praproses himpunan data gambar Exercise 6: Praproses himpunan data audio Exercise 7: Siapkan himpunan data untuk pelatihan terdistribusi Exercise 8: Praproses teks untuk pelatihan Exercise 9: Praproses teks dengan AutoTokenizer Exercise 10: Menyimpan dan memuat status teks yang telah dipraproses

Dalam pelatihan terdistribusi, setiap perangkat melatih model pada datanya masing-masing secara paralel. Anda akan menyelidiki dua metode untuk pelatihan terdistribusi: Accelerator memungkinkan loop pelatihan kustom, dan Trainer menyederhanakan antarmuka untuk pelatihan.

Exercise 1: Melakukan fine-tuning model dengan Trainer Exercise 2: Tetapkan metrik evaluasi Exercise 3: Tentukan TrainingArguments Exercise 4: Menyiapkan Trainer Exercise 5: Latih model dengan Accelerator Exercise 6: Siapkan model untuk pelatihan terdistribusi Exercise 7: Loop pelatihan sebelum dan sesudah Accelerator Exercise 8: Membangun loop pelatihan dengan Accelerator Exercise 9: Evaluasi model dengan Accelerator Exercise 10: Mengatur model ke mode evaluasi Exercise 11: Mencatat metrik evaluasi

Pelatihan terdistribusi membebani sumber daya saat menggunakan model dan himpunan data yang besar, tetapi Anda dapat mengatasinya dengan meningkatkan penggunaan memori, komunikasi antarperangkat, dan efisiensi komputasi. Anda akan mempelajari teknik gradient accumulation, gradient checkpointing, local stochastic gradient descent, dan mixed precision training.

Exercise 1: Akumulasi gradien Exercise 2: Akumulasi gradien dengan Accelerator

Latihan Saat Ini

Exercise 3: Akumulasi gradien dengan Trainer Exercise 4: Gradient checkpointing dan local SGD Exercise 5: Gradient checkpointing dengan Accelerator Exercise 6: Gradient checkpointing dengan Trainer Exercise 7: Local SGD dengan Accelerator Exercise 8: Pelatihan presisi campuran Exercise 9: Pelatihan mixed precision dengan PyTorch dasar Exercise 10: Pelatihan presisi campuran dengan Accelerator Exercise 11: Pelatihan presisi campuran dengan Trainer

Anda akan berfokus pada optimizer sebagai tuas untuk meningkatkan efisiensi pelatihan terdistribusi, dengan menyoroti pertukaran (trade-off) antara AdamW, Adafactor, dan 8-bit Adam. Mengurangi jumlah parameter atau menggunakan presisi rendah membantu menurunkan jejak memori model.

Exercise 1: Pelatihan seimbang dengan AdamW Exercise 2: AdamW dengan Trainer Exercise 3: AdamW dengan Accelerator Exercise 4: Hitung ukuran optimizer Exercise 5: Pelatihan hemat memori dengan Adafactor Exercise 6: Adafactor dengan Trainer Exercise 7: Adafactor dengan Accelerator Exercise 8: Pelatihan presisi campuran dengan 8-bit Adam Exercise 9: Menyiapkan pengoptimal Adam 8-bit Exercise 10: Adam 8-bit dengan Trainer Exercise 11: 8-bit Adam dengan Accelerator Exercise 12: Optimizer yang mana?Exercise 13: Selamat!