Gradient checkpointing dengan Trainer

Anda ingin menggunakan gradient checkpointing untuk mengurangi jejak memori model Anda. Anda telah melihat cara menulis loop pelatihan eksplisit dengan Accelerator, dan kini Anda ingin menggunakan antarmuka yang lebih sederhana tanpa loop pelatihan dengan Trainer. Latihan ini akan memerlukan waktu untuk dijalankan saat memanggil trainer.train().

Siapkan argumen untuk Trainer agar menggunakan gradient checkpointing.

Latihan ini merupakan bagian dari kursus

Pelatihan Model AI Efisien dengan PyTorch

Instruksi latihan

Gunakan empat langkah akumulasi gradien dalam TrainingArguments.
Aktifkan gradient checkpointing di TrainingArguments.
Teruskan argumen pelatihan ke Trainer.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

training_args = TrainingArguments(output_dir="./results",
                                  evaluation_strategy="epoch",
                                  # Use four gradient accumulation steps
                                  gradient_accumulation_steps=____,
                                  # Enable gradient checkpointing
                                  gradient_checkpointing=____)
trainer = Trainer(model=model,
                  # Pass in the training arguments
                  args=____,
                  train_dataset=dataset["train"],
                  eval_dataset=dataset["validation"],
                  compute_metrics=compute_metrics)
trainer.train()

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Pelatihan Model AI Efisien dengan PyTorch

SkillTag.level.advancedSkillTag.label

4.9+

Mulai Kursus Gratis

Anda akan menyiapkan data untuk pelatihan terdistribusi dengan membagi data ke beberapa perangkat dan menyalin model pada setiap perangkat. Accelerator menyediakan antarmuka yang praktis untuk persiapan data, dan Anda akan mempelajari cara memproses awal gambar, audio, dan teks sebagai langkah pertama dalam pelatihan terdistribusi.

Exercise 1: Menyiapkan model dengan AutoModel dan Accelerator Exercise 2: Memuat dan memeriksa model pralatih Exercise 3: Penempatan perangkat otomatis dengan Accelerator Exercise 4: Praproses gambar dan audio untuk pelatihan Exercise 5: Praproses himpunan data gambar Exercise 6: Praproses himpunan data audio Exercise 7: Siapkan himpunan data untuk pelatihan terdistribusi Exercise 8: Praproses teks untuk pelatihan Exercise 9: Praproses teks dengan AutoTokenizer Exercise 10: Menyimpan dan memuat status teks yang telah dipraproses

Dalam pelatihan terdistribusi, setiap perangkat melatih model pada datanya masing-masing secara paralel. Anda akan menyelidiki dua metode untuk pelatihan terdistribusi: Accelerator memungkinkan loop pelatihan kustom, dan Trainer menyederhanakan antarmuka untuk pelatihan.

Exercise 1: Melakukan fine-tuning model dengan Trainer Exercise 2: Tetapkan metrik evaluasi Exercise 3: Tentukan TrainingArguments Exercise 4: Menyiapkan Trainer Exercise 5: Latih model dengan Accelerator Exercise 6: Siapkan model untuk pelatihan terdistribusi Exercise 7: Loop pelatihan sebelum dan sesudah Accelerator Exercise 8: Membangun loop pelatihan dengan Accelerator Exercise 9: Evaluasi model dengan Accelerator Exercise 10: Mengatur model ke mode evaluasi Exercise 11: Mencatat metrik evaluasi

Pelatihan terdistribusi membebani sumber daya saat menggunakan model dan himpunan data yang besar, tetapi Anda dapat mengatasinya dengan meningkatkan penggunaan memori, komunikasi antarperangkat, dan efisiensi komputasi. Anda akan mempelajari teknik gradient accumulation, gradient checkpointing, local stochastic gradient descent, dan mixed precision training.

Exercise 1: Akumulasi gradien Exercise 2: Akumulasi gradien dengan Accelerator Exercise 3: Akumulasi gradien dengan Trainer Exercise 4: Gradient checkpointing dan local SGD Exercise 5: Gradient checkpointing dengan Accelerator Exercise 6: Gradient checkpointing dengan Trainer

Latihan Saat Ini

Exercise 7: Local SGD dengan Accelerator Exercise 8: Pelatihan presisi campuran Exercise 9: Pelatihan mixed precision dengan PyTorch dasar Exercise 10: Pelatihan presisi campuran dengan Accelerator Exercise 11: Pelatihan presisi campuran dengan Trainer

Anda akan berfokus pada optimizer sebagai tuas untuk meningkatkan efisiensi pelatihan terdistribusi, dengan menyoroti pertukaran (trade-off) antara AdamW, Adafactor, dan 8-bit Adam. Mengurangi jumlah parameter atau menggunakan presisi rendah membantu menurunkan jejak memori model.

Exercise 1: Pelatihan seimbang dengan AdamW Exercise 2: AdamW dengan Trainer Exercise 3: AdamW dengan Accelerator Exercise 4: Hitung ukuran optimizer Exercise 5: Pelatihan hemat memori dengan Adafactor Exercise 6: Adafactor dengan Trainer Exercise 7: Adafactor dengan Accelerator Exercise 8: Pelatihan presisi campuran dengan 8-bit Adam Exercise 9: Menyiapkan pengoptimal Adam 8-bit Exercise 10: Adam 8-bit dengan Trainer Exercise 11: 8-bit Adam dengan Accelerator Exercise 12: Optimizer yang mana?Exercise 13: Selamat!