Baja confianza
En este ejercicio, trabajarás con un modelo de recompensa para evaluar con qué confianza clasifica texto de entrada y para filtrar las predicciones que no sean fiables. El objetivo es evaluar la capacidad del modelo para generar predicciones y aplicar un umbral de confianza para asegurarte de que solo se consideren válidas las predicciones de alta confianza.
Se han cargado las distribuciones de probabilidad para cada texto de feedback (prob_dists) y los textos de feedback (texts), así como la función least_confidence().
Este ejercicio forma parte del curso
Reinforcement Learning from Human Feedback (RLHF)
Instrucciones del ejercicio
- Define la función para filtrar los índices de las distribuciones de probabilidad cuya confianza esté por debajo de un umbral dado.
- Obtén los índices de los comentarios de feedback pasando las distribuciones de probabilidad a la función, dejando el umbral sin cambios (
0.5).
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Define the filter function
def filter_low_confidence_predictions(prob_dists, threshold=0.5):
filtered_indices = [i for i, ____ in enumerate(____) ____]
return filtered_indices
# Find the indices
filtered_indices = ____
high_confidence_texts = [texts[i] for i in filtered_indices]
print("High-confidence texts:", high_confidence_texts)