Addestra con LoRA
Volevi iniziare il fine-tuning RLHF ma continuavi a imbatterti in errori di memoria insufficiente. Anche passando al caricamento del modello in precisione a 8 bit, l’errore persisteva. Per risolvere, hai deciso di fare un passo in più e applicare LoRA per un fine-tuning più efficiente.
Sono già stati pre-importati:
- Il modello caricato in precisione a 8 bit come
pretrained_model_8bit LoraConfigeget_peft_modeldapeftAutoModelForCausalLMWithValueHeaddatrl
Questo esercizio fa parte del corso
Reinforcement Learning from Human Feedback (RLHF)
Istruzioni dell'esercizio
- Imposta il dropout di LoRA a
0.1e il tipo di bias su lora-only. - Aggiungi la configurazione LoRA al modello.
- Configura il modello con una value head per l’addestramento PPO.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Set the configuration parameters
config = LoraConfig(
r=32,
lora_alpha=32,
lora_dropout=____,
bias=____)
# Apply the LoRA configuration to the 8-bit model
lora_model = get_peft_model(pretrained_model_8bit, ____)
# Set up the tokenizer and model with a value head for PPO training
model = ____.from_pretrained(____)