Preparar el entrenamiento en 8 bits

Querías empezar el fine-tuning con RLHF, pero te encontrabas continuamente con errores de falta de memoria. Para resolverlo, decidiste cambiar a precisión de 8 bits, lo que permite un fine-tuning más eficiente, aprovechando la biblioteca peft de Hugging Face.

Se han preimportado los siguientes elementos:

AutoModelForCausalLM de transformers
prepare_model_for_int8_training de peft
AutoModelForCausalLMWithValueHead de trl

Este ejercicio forma parte del curso

Reinforcement Learning from Human Feedback (RLHF)

Instrucciones del ejercicio

Carga el modelo preentrenado e incluye el parámetro para la precisión de 8 bits.
Usa la función prepare_model_for_int8_training para dejar el modelo listo para el fine-tuning basado en LoRA.
Carga el modelo con una value head para el entrenamiento con PPO.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

model_name = "gpt2"  

# Load the model in 8-bit precision
pretrained_model = AutoModelForCausalLM.from_pretrained(
                                                       model_name, 
                                                       ____=True
                                                      )

# Prepare the model for fine-tuning
pretrained_model_8bit = ____(pretrained_model)

# Load the model with a value head
model = ____.from_pretrained(pretrained_model_8bit)

Editar y ejecutar código

Este ejercicio forma parte del curso

Reinforcement Learning from Human Feedback (RLHF)

AvanzadoNivel de habilidad

4.8+

Comienza el curso gratis

Este capítulo presenta las bases de Reinforcement Learning with Human Feedback (RLHF), una técnica que usa la aportación humana para que los modelos de IA aprendan de forma más efectiva. Empieza con RLHF entendiendo en qué se diferencia del aprendizaje por refuerzo tradicional y por qué el feedback humano puede mejorar el rendimiento de la IA en distintos ámbitos.

Exercise 1: Introducción a RLHF Exercise 2: Generación de texto con RLHF Exercise 3: Clasificar texto generado para RLHF Exercise 4: RL vs. RLHF Exercise 5: Explorar LLMs preentrenados Exercise 6: Tokeniza un conjunto de datos de texto Exercise 7: Ajuste fino para clasificar reseñas Exercise 8: Preparar datos para RLHF Exercise 9: Preparar el conjunto de datos de preferencias Exercise 10: Extracción de prompts

Descubre cómo configurar sistemas para recopilar feedback humano en este capítulo. Aprende buenas prácticas para recoger datos de alta calidad, desde comparaciones por pares hasta muestreo por incertidumbre, y explora estrategias para potenciar tu proceso de recopilación de datos.

Exercise 1: Métodos para recopilar feedback de alta calidad Exercise 2: Comprender comparación y puntuación en RLHF Exercise 3: Comparar eslóganes para una campaña de gimnasio Exercise 4: Medir la calidad y la relevancia del feedback Exercise 5: Baja confianza Exercise 6: K-means para agrupar feedback Exercise 7: Active learning Exercise 8: Implementación de una canalización de active learning Exercise 9: Bucle de active learning

En este capítulo, entrarás en el núcleo del entrenamiento con Reinforcement Learning from Human Feedback. Esto incluye explorar el fine-tuning con PPO, técnicas para entrenar de forma eficiente y cómo manejar posibles desviaciones respecto a los objetivos de tus métricas.

Exercise 1: Explorando los modelos de recompensa Exercise 2: Inicializar la recompensa Exercise 3: Configurar el entrenador de recompensas Exercise 4: Entrenamiento con PPO Exercise 5: Inicializa el entrenador de PPO Exercise 6: Ajuste fino con PPO Exercise 7: Ajuste eficiente en RLHF Exercise 8: Preparar el entrenamiento en 8 bits

Ejercicio actual

Exercise 9: Entrenar con LoRA

Explora técnicas clave para evaluar y mejorar el rendimiento del modelo en este último capítulo de Reinforcement Learning from Human Feedback (RLHF): desde métricas de fine-tuning hasta la incorporación de fuentes de feedback diversas, contarás con un conjunto de herramientas completo para perfeccionar tus modelos de forma efectiva.

Exercise 1: Métricas del modelo y ajustes Exercise 2: Cómo mitigar la divergencia KL negativa Exercise 3: Comprobando el reward model Exercise 4: Incorporar fuentes de feedback diversas Exercise 5: Votación por mayoría con múltiples fuentes de datos Exercise 6: Identificación de fuentes de datos poco fiables Exercise 7: Evaluar modelos RLHF Exercise 8: Interpretar curvas Exercise 9: Evaluar RLHF con métricas Exercise 10: Cerrando tu recorrido por RLHF