Adafactor dengan Trainer
Anda sedang melatih model Transformer dengan miliaran parameter untuk layanan terjemahan bahasa Anda. Hal ini membebani sumber daya komputasi, sehingga Anda memutuskan untuk mencoba pengoptimal Adafactor untuk mengurangi kebutuhan memori dibandingkan AdamW. Siapkan Trainer untuk Adafactor!
Beberapa objek pelatihan telah dimuat sebelumnya, termasuk model, train_dataset, validation_dataset, dan compute_metrics.
Latihan ini merupakan bagian dari kursus
Pelatihan Model AI Efisien dengan PyTorch
Instruksi latihan
- Tentukan
Adafactorsebagai pengoptimal dalamTrainingArguments. - Teruskan state pengoptimal untuk mencetak ukurannya.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Specify Adafactor as an optimizer
training_args = TrainingArguments(output_dir="./results",
evaluation_strategy="epoch",
optim="____")
trainer = Trainer(model=model,
args=training_args,
train_dataset=train_dataset,
eval_dataset=validation_dataset,
compute_metrics=compute_metrics)
trainer.train()
# Pass in the optimizer state
total_size_megabytes, total_num_elements = compute_optimizer_size(trainer.optimizer.state.____())
print(f"\nNumber of optimizer parameters: {total_num_elements:,}\nOptimizer size: {total_size_megabytes:.0f} MB")