Menyiapkan pengoptimal Adam 8-bit
Anda mendapati pelatihan model Transformer untuk penerjemahan bahasa waktu nyata tidak belajar secara efektif dengan Adafactor. Sebagai alternatif, Anda memutuskan mencoba pengoptimal Adam 8-bit untuk mengurangi penggunaan memori sekitar 75% dibandingkan Adam.
Pustaka bitsandbytes telah diimpor sebagai bnb, TrainingArguments telah didefinisikan sebagai args, dan optimizer_grouped_parameters telah dimuat sebelumnya. Perhatikan bahwa latihan ini mencetak pesan peringatan tentang libbitsandbytes_cpu.so, tetapi Anda dapat mengabaikan peringatan tersebut untuk menyelesaikan latihan.
Latihan ini merupakan bagian dari kursus
Pelatihan Model AI Efisien dengan PyTorch
Instruksi latihan
- Instansiasikan pengoptimal Adam 8-bit menggunakan kelas
Adam8bitdaribnb.optim. - Teruskan parameter beta1 dan beta2 ke pengoptimal Adam 8-bit.
- Teruskan parameter epsilon ke pengoptimal Adam 8-bit.
- Cetak parameter masukan dari pengoptimal Adam 8-bit.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Instantiate the 8-bit Adam optimizer
adam_bnb_optim = bnb.optim.____(optimizer_grouped_parameters,
# Pass in the beta1 and beta2 parameters
betas=(args.____, args.____),
# Pass in the epsilon parameter
eps=args.____,
lr=args.learning_rate)
# Print the input parameters
print(f"beta1 = {args.adam_beta1}")
print(f"beta2 = {args.____}")
print(f"epsilon = {args.____}")
print(f"learning_rate = {args.learning_rate}")