Adafactor dengan Trainer

Anda sedang melatih model Transformer dengan miliaran parameter untuk layanan terjemahan bahasa Anda. Hal ini membebani sumber daya komputasi, sehingga Anda memutuskan untuk mencoba pengoptimal Adafactor untuk mengurangi kebutuhan memori dibandingkan AdamW. Siapkan Trainer untuk Adafactor!

Beberapa objek pelatihan telah dimuat sebelumnya, termasuk model, train_dataset, validation_dataset, dan compute_metrics.

Latihan ini merupakan bagian dari kursus

Pelatihan Model AI Efisien dengan PyTorch

Instruksi latihan

Tentukan Adafactor sebagai pengoptimal dalam TrainingArguments.
Teruskan state pengoptimal untuk mencetak ukurannya.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Specify Adafactor as an optimizer
training_args = TrainingArguments(output_dir="./results",
                                  evaluation_strategy="epoch",
                                  optim="____")

trainer = Trainer(model=model,
                  args=training_args,
                  train_dataset=train_dataset,
                  eval_dataset=validation_dataset,
                  compute_metrics=compute_metrics)
trainer.train()

# Pass in the optimizer state
total_size_megabytes, total_num_elements = compute_optimizer_size(trainer.optimizer.state.____())
print(f"\nNumber of optimizer parameters: {total_num_elements:,}\nOptimizer size: {total_size_megabytes:.0f} MB")

Edit dan Jalankan Kode

Latihan ini merupakan bagian dari kursus

Pelatihan Model AI Efisien dengan PyTorch

SkillTag.level.advancedSkillTag.label

4.9+

Mulai Kursus Gratis

Anda akan menyiapkan data untuk pelatihan terdistribusi dengan membagi data ke beberapa perangkat dan menyalin model pada setiap perangkat. Accelerator menyediakan antarmuka yang praktis untuk persiapan data, dan Anda akan mempelajari cara memproses awal gambar, audio, dan teks sebagai langkah pertama dalam pelatihan terdistribusi.

Exercise 1: Menyiapkan model dengan AutoModel dan Accelerator Exercise 2: Memuat dan memeriksa model pralatih Exercise 3: Penempatan perangkat otomatis dengan Accelerator Exercise 4: Praproses gambar dan audio untuk pelatihan Exercise 5: Praproses himpunan data gambar Exercise 6: Praproses himpunan data audio Exercise 7: Siapkan himpunan data untuk pelatihan terdistribusi Exercise 8: Praproses teks untuk pelatihan Exercise 9: Praproses teks dengan AutoTokenizer Exercise 10: Menyimpan dan memuat status teks yang telah dipraproses

Dalam pelatihan terdistribusi, setiap perangkat melatih model pada datanya masing-masing secara paralel. Anda akan menyelidiki dua metode untuk pelatihan terdistribusi: Accelerator memungkinkan loop pelatihan kustom, dan Trainer menyederhanakan antarmuka untuk pelatihan.

Exercise 1: Melakukan fine-tuning model dengan Trainer Exercise 2: Tetapkan metrik evaluasi Exercise 3: Tentukan TrainingArguments Exercise 4: Menyiapkan Trainer Exercise 5: Latih model dengan Accelerator Exercise 6: Siapkan model untuk pelatihan terdistribusi Exercise 7: Loop pelatihan sebelum dan sesudah Accelerator Exercise 8: Membangun loop pelatihan dengan Accelerator Exercise 9: Evaluasi model dengan Accelerator Exercise 10: Mengatur model ke mode evaluasi Exercise 11: Mencatat metrik evaluasi

Pelatihan terdistribusi membebani sumber daya saat menggunakan model dan himpunan data yang besar, tetapi Anda dapat mengatasinya dengan meningkatkan penggunaan memori, komunikasi antarperangkat, dan efisiensi komputasi. Anda akan mempelajari teknik gradient accumulation, gradient checkpointing, local stochastic gradient descent, dan mixed precision training.

Exercise 1: Akumulasi gradien Exercise 2: Akumulasi gradien dengan Accelerator Exercise 3: Akumulasi gradien dengan Trainer Exercise 4: Gradient checkpointing dan local SGD Exercise 5: Gradient checkpointing dengan Accelerator Exercise 6: Gradient checkpointing dengan Trainer Exercise 7: Local SGD dengan Accelerator Exercise 8: Pelatihan presisi campuran Exercise 9: Pelatihan mixed precision dengan PyTorch dasar Exercise 10: Pelatihan presisi campuran dengan Accelerator Exercise 11: Pelatihan presisi campuran dengan Trainer

Anda akan berfokus pada optimizer sebagai tuas untuk meningkatkan efisiensi pelatihan terdistribusi, dengan menyoroti pertukaran (trade-off) antara AdamW, Adafactor, dan 8-bit Adam. Mengurangi jumlah parameter atau menggunakan presisi rendah membantu menurunkan jejak memori model.

Exercise 1: Pelatihan seimbang dengan AdamW Exercise 2: AdamW dengan Trainer Exercise 3: AdamW dengan Accelerator Exercise 4: Hitung ukuran optimizer Exercise 5: Pelatihan hemat memori dengan Adafactor Exercise 6: Adafactor dengan Trainer

Latihan Saat Ini

Exercise 7: Adafactor dengan Accelerator Exercise 8: Pelatihan presisi campuran dengan 8-bit Adam Exercise 9: Menyiapkan pengoptimal Adam 8-bit Exercise 10: Adam 8-bit dengan Trainer Exercise 11: 8-bit Adam dengan Accelerator Exercise 12: Optimizer yang mana?Exercise 13: Selamat!