or
Latihan ini merupakan bagian dari kursus
Anda akan menyiapkan data untuk pelatihan terdistribusi dengan membagi data ke beberapa perangkat dan menyalin model pada setiap perangkat. Accelerator menyediakan antarmuka yang praktis untuk persiapan data, dan Anda akan mempelajari cara memproses awal gambar, audio, dan teks sebagai langkah pertama dalam pelatihan terdistribusi.
Dalam pelatihan terdistribusi, setiap perangkat melatih model pada datanya masing-masing secara paralel. Anda akan menyelidiki dua metode untuk pelatihan terdistribusi: Accelerator memungkinkan loop pelatihan kustom, dan Trainer menyederhanakan antarmuka untuk pelatihan.
Pelatihan terdistribusi membebani sumber daya saat menggunakan model dan himpunan data yang besar, tetapi Anda dapat mengatasinya dengan meningkatkan penggunaan memori, komunikasi antarperangkat, dan efisiensi komputasi. Anda akan mempelajari teknik gradient accumulation, gradient checkpointing, local stochastic gradient descent, dan mixed precision training.
Anda akan berfokus pada optimizer sebagai tuas untuk meningkatkan efisiensi pelatihan terdistribusi, dengan menyoroti pertukaran (trade-off) antara AdamW, Adafactor, dan 8-bit Adam. Mengurangi jumlah parameter atau menggunakan presisi rendah membantu menurunkan jejak memori model.
Latihan Saat Ini