Trainen met LoRA
Je wilde beginnen met RLHF-finetuning maar kreeg steeds out-of-memory-fouten. Hoewel je het model in 8-bit-precisie laadde, bleef de fout bestaan. Daarom besloot je de volgende stap te zetten en LoRA toe te passen voor efficiënter finetunen.
Het volgende is al voor je geïmporteerd:
- Het model geladen in 8-bit-precisie als
pretrained_model_8bit LoraConfigenget_peft_modeluitpeftAutoModelForCausalLMWithValueHeaduittrl
Deze oefening maakt deel uit van de cursus
Reinforcement Learning from Human Feedback (RLHF)
Oefeninstructies
- Zet de LoRA-dropout op
0.1en stel het bias-type in op lora-only. - Voeg de LoRA-configuratie toe aan het model.
- Richt het model in met een value head voor PPO-training.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Set the configuration parameters
config = LoraConfig(
r=32,
lora_alpha=32,
lora_dropout=____,
bias=____)
# Apply the LoRA configuration to the 8-bit model
lora_model = get_peft_model(pretrained_model_8bit, ____)
# Set up the tokenizer and model with a value head for PPO training
model = ____.from_pretrained(____)