Entrenar con LoRA

Querías empezar el fine-tuning con RLHF pero te encontrabas constantemente con errores de falta de memoria. Aunque pasaste a cargar el modelo en precisión de 8 bits, el error persistía. Para solucionarlo, decidiste dar el siguiente paso y aplicar LoRA para un fine-tuning más eficiente.

Ya se han preimportado lo siguiente:

El modelo cargado en precisión de 8 bits como pretrained_model_8bit
LoraConfig y get_peft_model de peft
AutoModelForCausalLMWithValueHead de trl

Este ejercicio forma parte del curso

Reinforcement Learning from Human Feedback (RLHF)

Instrucciones del ejercicio

Establece el dropout de LoRA en 0.1 y el tipo de bias como lora-only.
Añade la configuración de LoRA al modelo.
Configura el modelo con una value head para el entrenamiento con PPO.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Set the configuration parameters
config = LoraConfig(
    r=32,  
    lora_alpha=32,  
    lora_dropout=____,  
    bias=____)  

# Apply the LoRA configuration to the 8-bit model
lora_model = get_peft_model(pretrained_model_8bit, ____)
# Set up the tokenizer and model with a value head for PPO training
model = ____.from_pretrained(____)

Editar y ejecutar código

Este ejercicio forma parte del curso

Reinforcement Learning from Human Feedback (RLHF)

AvanzadoNivel de habilidad

4.8+

Comienza el curso gratis

Este capítulo presenta las bases de Reinforcement Learning with Human Feedback (RLHF), una técnica que usa la aportación humana para que los modelos de IA aprendan de forma más efectiva. Empieza con RLHF entendiendo en qué se diferencia del aprendizaje por refuerzo tradicional y por qué el feedback humano puede mejorar el rendimiento de la IA en distintos ámbitos.

Exercise 1: Introducción a RLHF Exercise 2: Generación de texto con RLHF Exercise 3: Clasificar texto generado para RLHF Exercise 4: RL vs. RLHF Exercise 5: Explorar LLMs preentrenados Exercise 6: Tokeniza un conjunto de datos de texto Exercise 7: Ajuste fino para clasificar reseñas Exercise 8: Preparar datos para RLHF Exercise 9: Preparar el conjunto de datos de preferencias Exercise 10: Extracción de prompts

Descubre cómo configurar sistemas para recopilar feedback humano en este capítulo. Aprende buenas prácticas para recoger datos de alta calidad, desde comparaciones por pares hasta muestreo por incertidumbre, y explora estrategias para potenciar tu proceso de recopilación de datos.

Exercise 1: Métodos para recopilar feedback de alta calidad Exercise 2: Comprender comparación y puntuación en RLHF Exercise 3: Comparar eslóganes para una campaña de gimnasio Exercise 4: Medir la calidad y la relevancia del feedback Exercise 5: Baja confianza Exercise 6: K-means para agrupar feedback Exercise 7: Active learning Exercise 8: Implementación de una canalización de active learning Exercise 9: Bucle de active learning

En este capítulo, entrarás en el núcleo del entrenamiento con Reinforcement Learning from Human Feedback. Esto incluye explorar el fine-tuning con PPO, técnicas para entrenar de forma eficiente y cómo manejar posibles desviaciones respecto a los objetivos de tus métricas.

Exercise 1: Explorando los modelos de recompensa Exercise 2: Inicializar la recompensa Exercise 3: Configurar el entrenador de recompensas Exercise 4: Entrenamiento con PPO Exercise 5: Inicializa el entrenador de PPO Exercise 6: Ajuste fino con PPO Exercise 7: Ajuste eficiente en RLHF Exercise 8: Preparar el entrenamiento en 8 bits Exercise 9: Entrenar con LoRA

Ejercicio actual

Explora técnicas clave para evaluar y mejorar el rendimiento del modelo en este último capítulo de Reinforcement Learning from Human Feedback (RLHF): desde métricas de fine-tuning hasta la incorporación de fuentes de feedback diversas, contarás con un conjunto de herramientas completo para perfeccionar tus modelos de forma efectiva.

Exercise 1: Métricas del modelo y ajustes Exercise 2: Cómo mitigar la divergencia KL negativa Exercise 3: Comprobando el reward model Exercise 4: Incorporar fuentes de feedback diversas Exercise 5: Votación por mayoría con múltiples fuentes de datos Exercise 6: Identificación de fuentes de datos poco fiables Exercise 7: Evaluar modelos RLHF Exercise 8: Interpretar curvas Exercise 9: Evaluar RLHF con métricas Exercise 10: Cerrando tu recorrido por RLHF