Utilizar métricas de evaluación
Es hora de evaluar tu LLM que clasifica las interacciones de atención al cliente. Retomando desde donde dejaste tu modelo afinado, ahora utilizarás un nuevo conjunto de datos de validación para evaluar el rendimiento de tu modelo.
Algunas interacciones y sus correspondientes etiquetas se han cargado para ti como validate_text
y validate_labels
. También se cargan model
y tokenizer
.
Este ejercicio forma parte del curso
Introduction to LLMs in Python
Instrucciones de ejercicio
- Extrae las etiquetas predichas de los logits del modelo que se encuentran en
outputs
. - Calcula las cuatro métricas cargadas comparando las etiquetas reales (
validate_labels
) y las predichas.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
accuracy = evaluate.load("accuracy")
precision = evaluate.load("precision")
recall = evaluate.load("recall")
f1 = evaluate.load("f1")
# Extract the new predictions
predicted_labels = ____
# Compute the metrics by comparing real and predicted labels
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))