Aan de slagGa gratis aan de slag

Trainen met LoRA

Je wilde beginnen met RLHF-finetuning maar kreeg steeds out-of-memory-fouten. Hoewel je het model in 8-bit-precisie laadde, bleef de fout bestaan. Daarom besloot je de volgende stap te zetten en LoRA toe te passen voor efficiënter finetunen.

Het volgende is al voor je geïmporteerd:

  • Het model geladen in 8-bit-precisie als pretrained_model_8bit
  • LoraConfig en get_peft_model uit peft
  • AutoModelForCausalLMWithValueHead uit trl

Deze oefening maakt deel uit van de cursus

Reinforcement Learning from Human Feedback (RLHF)

Cursus bekijken

Oefeninstructies

  • Zet de LoRA-dropout op 0.1 en stel het bias-type in op lora-only.
  • Voeg de LoRA-configuratie toe aan het model.
  • Richt het model in met een value head voor PPO-training.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Set the configuration parameters
config = LoraConfig(
    r=32,  
    lora_alpha=32,  
    lora_dropout=____,  
    bias=____)  

# Apply the LoRA configuration to the 8-bit model
lora_model = get_peft_model(pretrained_model_8bit, ____)
# Set up the tokenizer and model with a value head for PPO training
model = ____.from_pretrained(____)
Code bewerken en uitvoeren