Entrenar con LoRA
Querías empezar el fine-tuning con RLHF pero te encontrabas constantemente con errores de falta de memoria. Aunque pasaste a cargar el modelo en precisión de 8 bits, el error persistía. Para solucionarlo, decidiste dar el siguiente paso y aplicar LoRA para un fine-tuning más eficiente.
Ya se han preimportado lo siguiente:
- El modelo cargado en precisión de 8 bits como
pretrained_model_8bit LoraConfigyget_peft_modeldepeftAutoModelForCausalLMWithValueHeaddetrl
Este ejercicio forma parte del curso
Reinforcement Learning from Human Feedback (RLHF)
Instrucciones del ejercicio
- Establece el dropout de LoRA en
0.1y el tipo de bias como lora-only. - Añade la configuración de LoRA al modelo.
- Configura el modelo con una value head para el entrenamiento con PPO.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Set the configuration parameters
config = LoraConfig(
r=32,
lora_alpha=32,
lora_dropout=____,
bias=____)
# Apply the LoRA configuration to the 8-bit model
lora_model = get_peft_model(pretrained_model_8bit, ____)
# Set up the tokenizer and model with a value head for PPO training
model = ____.from_pretrained(____)