ComenzarEmpieza gratis

Entrenar con LoRA

Querías empezar el fine-tuning con RLHF pero te encontrabas constantemente con errores de falta de memoria. Aunque pasaste a cargar el modelo en precisión de 8 bits, el error persistía. Para solucionarlo, decidiste dar el siguiente paso y aplicar LoRA para un fine-tuning más eficiente.

Ya se han preimportado lo siguiente:

  • El modelo cargado en precisión de 8 bits como pretrained_model_8bit
  • LoraConfig y get_peft_model de peft
  • AutoModelForCausalLMWithValueHead de trl

Este ejercicio forma parte del curso

Reinforcement Learning from Human Feedback (RLHF)

Ver curso

Instrucciones del ejercicio

  • Establece el dropout de LoRA en 0.1 y el tipo de bias como lora-only.
  • Añade la configuración de LoRA al modelo.
  • Configura el modelo con una value head para el entrenamiento con PPO.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Set the configuration parameters
config = LoraConfig(
    r=32,  
    lora_alpha=32,  
    lora_dropout=____,  
    bias=____)  

# Apply the LoRA configuration to the 8-bit model
lora_model = get_peft_model(pretrained_model_8bit, ____)
# Set up the tokenizer and model with a value head for PPO training
model = ____.from_pretrained(____)
Editar y ejecutar código