IniziaInizia gratis

Addestra con LoRA

Volevi iniziare il fine-tuning RLHF ma continuavi a imbatterti in errori di memoria insufficiente. Anche passando al caricamento del modello in precisione a 8 bit, l’errore persisteva. Per risolvere, hai deciso di fare un passo in più e applicare LoRA per un fine-tuning più efficiente.

Sono già stati pre-importati:

  • Il modello caricato in precisione a 8 bit come pretrained_model_8bit
  • LoraConfig e get_peft_model da peft
  • AutoModelForCausalLMWithValueHead da trl

Questo esercizio fa parte del corso

Reinforcement Learning from Human Feedback (RLHF)

Visualizza il corso

Istruzioni dell'esercizio

  • Imposta il dropout di LoRA a 0.1 e il tipo di bias su lora-only.
  • Aggiungi la configurazione LoRA al modello.
  • Configura il modello con una value head per l’addestramento PPO.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Set the configuration parameters
config = LoraConfig(
    r=32,  
    lora_alpha=32,  
    lora_dropout=____,  
    bias=____)  

# Apply the LoRA configuration to the 8-bit model
lora_model = get_peft_model(pretrained_model_8bit, ____)
# Set up the tokenizer and model with a value head for PPO training
model = ____.from_pretrained(____)
Modifica ed esegui il codice