Baja confianza

En este ejercicio, trabajarás con un modelo de recompensa para evaluar con qué confianza clasifica texto de entrada y para filtrar las predicciones que no sean fiables. El objetivo es evaluar la capacidad del modelo para generar predicciones y aplicar un umbral de confianza para asegurarte de que solo se consideren válidas las predicciones de alta confianza.

Se han cargado las distribuciones de probabilidad para cada texto de feedback (prob_dists) y los textos de feedback (texts), así como la función least_confidence().

Este ejercicio forma parte del curso

Reinforcement Learning from Human Feedback (RLHF)

Instrucciones del ejercicio

Define la función para filtrar los índices de las distribuciones de probabilidad cuya confianza esté por debajo de un umbral dado.
Obtén los índices de los comentarios de feedback pasando las distribuciones de probabilidad a la función, dejando el umbral sin cambios (0.5).

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Define the filter function
def filter_low_confidence_predictions(prob_dists, threshold=0.5):
    filtered_indices = [i for i, ____ in enumerate(____) ____]
    return filtered_indices

# Find the indices
filtered_indices = ____

high_confidence_texts = [texts[i] for i in filtered_indices]
print("High-confidence texts:", high_confidence_texts)

Editar y ejecutar código

Este ejercicio forma parte del curso

Reinforcement Learning from Human Feedback (RLHF)

AvanzadoNivel de habilidad

4.8+

Comienza el curso gratis

Este capítulo presenta las bases de Reinforcement Learning with Human Feedback (RLHF), una técnica que usa la aportación humana para que los modelos de IA aprendan de forma más efectiva. Empieza con RLHF entendiendo en qué se diferencia del aprendizaje por refuerzo tradicional y por qué el feedback humano puede mejorar el rendimiento de la IA en distintos ámbitos.

Exercise 1: Introducción a RLHF Exercise 2: Generación de texto con RLHF Exercise 3: Clasificar texto generado para RLHF Exercise 4: RL vs. RLHF Exercise 5: Explorar LLMs preentrenados Exercise 6: Tokeniza un conjunto de datos de texto Exercise 7: Ajuste fino para clasificar reseñas Exercise 8: Preparar datos para RLHF Exercise 9: Preparar el conjunto de datos de preferencias Exercise 10: Extracción de prompts

Descubre cómo configurar sistemas para recopilar feedback humano en este capítulo. Aprende buenas prácticas para recoger datos de alta calidad, desde comparaciones por pares hasta muestreo por incertidumbre, y explora estrategias para potenciar tu proceso de recopilación de datos.

Exercise 1: Métodos para recopilar feedback de alta calidad Exercise 2: Comprender comparación y puntuación en RLHF Exercise 3: Comparar eslóganes para una campaña de gimnasio Exercise 4: Medir la calidad y la relevancia del feedback Exercise 5: Baja confianza

Ejercicio actual

Exercise 6: K-means para agrupar feedback Exercise 7: Active learning Exercise 8: Implementación de una canalización de active learning Exercise 9: Bucle de active learning

En este capítulo, entrarás en el núcleo del entrenamiento con Reinforcement Learning from Human Feedback. Esto incluye explorar el fine-tuning con PPO, técnicas para entrenar de forma eficiente y cómo manejar posibles desviaciones respecto a los objetivos de tus métricas.

Exercise 1: Explorando los modelos de recompensa Exercise 2: Inicializar la recompensa Exercise 3: Configurar el entrenador de recompensas Exercise 4: Entrenamiento con PPO Exercise 5: Inicializa el entrenador de PPO Exercise 6: Ajuste fino con PPO Exercise 7: Ajuste eficiente en RLHF Exercise 8: Preparar el entrenamiento en 8 bits Exercise 9: Entrenar con LoRA

Explora técnicas clave para evaluar y mejorar el rendimiento del modelo en este último capítulo de Reinforcement Learning from Human Feedback (RLHF): desde métricas de fine-tuning hasta la incorporación de fuentes de feedback diversas, contarás con un conjunto de herramientas completo para perfeccionar tus modelos de forma efectiva.

Exercise 1: Métricas del modelo y ajustes Exercise 2: Cómo mitigar la divergencia KL negativa Exercise 3: Comprobando el reward model Exercise 4: Incorporar fuentes de feedback diversas Exercise 5: Votación por mayoría con múltiples fuentes de datos Exercise 6: Identificación de fuentes de datos poco fiables Exercise 7: Evaluar modelos RLHF Exercise 8: Interpretar curvas Exercise 9: Evaluar RLHF con métricas Exercise 10: Cerrando tu recorrido por RLHF