Akumulasi gradien dengan Trainer

Anda sedang menyiapkan Trainer untuk model penerjemahan bahasa agar menggunakan akumulasi gradien, sehingga Anda dapat melatih secara efektif pada batch yang lebih besar. Model Anda akan menyederhanakan terjemahan dengan melatih pada parafrasa dari himpunan data MRPC. Konfigurasikan argumen pelatihan untuk mengakumulasi gradien! Latihan ini akan memerlukan waktu untuk dijalankan saat memanggil trainer.train().

model, dataset, dan fungsi compute_metrics() telah didefinisikan sebelumnya.

Latihan ini merupakan bagian dari kursus

Pelatihan Model AI Efisien dengan PyTorch

Instruksi latihan

Tetapkan jumlah langkah akumulasi gradien menjadi dua.
Teruskan argumen pelatihan ke Trainer.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    # Set the number of gradient accumulation steps to two
    ____=____
)
trainer = Trainer(
    model=model,
    # Pass in the training arguments to Trainer
    ____=____,
    train_dataset=dataset["train"],
    eval_dataset=dataset["validation"],
    compute_metrics=compute_metrics,
)
trainer.train()

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Pelatihan Model AI Efisien dengan PyTorch

SkillTag.level.advancedSkillTag.label

4.9+

Mulai Kursus Gratis

Anda akan menyiapkan data untuk pelatihan terdistribusi dengan membagi data ke beberapa perangkat dan menyalin model pada setiap perangkat. Accelerator menyediakan antarmuka yang praktis untuk persiapan data, dan Anda akan mempelajari cara memproses awal gambar, audio, dan teks sebagai langkah pertama dalam pelatihan terdistribusi.

Exercise 1: Menyiapkan model dengan AutoModel dan Accelerator Exercise 2: Memuat dan memeriksa model pralatih Exercise 3: Penempatan perangkat otomatis dengan Accelerator Exercise 4: Praproses gambar dan audio untuk pelatihan Exercise 5: Praproses himpunan data gambar Exercise 6: Praproses himpunan data audio Exercise 7: Siapkan himpunan data untuk pelatihan terdistribusi Exercise 8: Praproses teks untuk pelatihan Exercise 9: Praproses teks dengan AutoTokenizer Exercise 10: Menyimpan dan memuat status teks yang telah dipraproses

Dalam pelatihan terdistribusi, setiap perangkat melatih model pada datanya masing-masing secara paralel. Anda akan menyelidiki dua metode untuk pelatihan terdistribusi: Accelerator memungkinkan loop pelatihan kustom, dan Trainer menyederhanakan antarmuka untuk pelatihan.

Exercise 1: Melakukan fine-tuning model dengan Trainer Exercise 2: Tetapkan metrik evaluasi Exercise 3: Tentukan TrainingArguments Exercise 4: Menyiapkan Trainer Exercise 5: Latih model dengan Accelerator Exercise 6: Siapkan model untuk pelatihan terdistribusi Exercise 7: Loop pelatihan sebelum dan sesudah Accelerator Exercise 8: Membangun loop pelatihan dengan Accelerator Exercise 9: Evaluasi model dengan Accelerator Exercise 10: Mengatur model ke mode evaluasi Exercise 11: Mencatat metrik evaluasi

Pelatihan terdistribusi membebani sumber daya saat menggunakan model dan himpunan data yang besar, tetapi Anda dapat mengatasinya dengan meningkatkan penggunaan memori, komunikasi antarperangkat, dan efisiensi komputasi. Anda akan mempelajari teknik gradient accumulation, gradient checkpointing, local stochastic gradient descent, dan mixed precision training.

Exercise 1: Akumulasi gradien Exercise 2: Akumulasi gradien dengan Accelerator Exercise 3: Akumulasi gradien dengan Trainer

Latihan Saat Ini

Exercise 4: Gradient checkpointing dan local SGD Exercise 5: Gradient checkpointing dengan Accelerator Exercise 6: Gradient checkpointing dengan Trainer Exercise 7: Local SGD dengan Accelerator Exercise 8: Pelatihan presisi campuran Exercise 9: Pelatihan mixed precision dengan PyTorch dasar Exercise 10: Pelatihan presisi campuran dengan Accelerator Exercise 11: Pelatihan presisi campuran dengan Trainer

Anda akan berfokus pada optimizer sebagai tuas untuk meningkatkan efisiensi pelatihan terdistribusi, dengan menyoroti pertukaran (trade-off) antara AdamW, Adafactor, dan 8-bit Adam. Mengurangi jumlah parameter atau menggunakan presisi rendah membantu menurunkan jejak memori model.

Exercise 1: Pelatihan seimbang dengan AdamW Exercise 2: AdamW dengan Trainer Exercise 3: AdamW dengan Accelerator Exercise 4: Hitung ukuran optimizer Exercise 5: Pelatihan hemat memori dengan Adafactor Exercise 6: Adafactor dengan Trainer Exercise 7: Adafactor dengan Accelerator Exercise 8: Pelatihan presisi campuran dengan 8-bit Adam Exercise 9: Menyiapkan pengoptimal Adam 8-bit Exercise 10: Adam 8-bit dengan Trainer Exercise 11: 8-bit Adam dengan Accelerator Exercise 12: Optimizer yang mana?Exercise 13: Selamat!