Latih dengan LoRA
Anda ingin memulai fine-tuning RLHF tetapi terus mengalami error kehabisan memori. Meskipun Anda beralih memuat model dalam presisi 8-bit, error tersebut tetap muncul. Untuk mengatasinya, Anda memutuskan melangkah lebih jauh dan menerapkan LoRA agar fine-tuning lebih efisien.
Berikut ini sudah diimpor sebelumnya:
- Model yang dimuat dalam presisi 8-bit sebagai
pretrained_model_8bit LoraConfigdanget_peft_modeldaripeftAutoModelForCausalLMWithValueHeaddaritrl
Latihan ini adalah bagian dari kursus
Reinforcement Learning from Human Feedback (RLHF)
Petunjuk latihan
- Atur dropout LoRA ke
0.1dan tipe bias menjadi lora-only. - Tambahkan konfigurasi LoRA ke model.
- Siapkan model dengan value head untuk pelatihan PPO.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Set the configuration parameters
config = LoraConfig(
r=32,
lora_alpha=32,
lora_dropout=____,
bias=____)
# Apply the LoRA configuration to the 8-bit model
lora_model = get_peft_model(pretrained_model_8bit, ____)
# Set up the tokenizer and model with a value head for PPO training
model = ____.from_pretrained(____)