ComenzarEmpieza gratis

Utilizar métricas de evaluación

Es hora de evaluar tu LLM que clasifica las interacciones de atención al cliente. Retomando desde donde dejaste tu modelo afinado, ahora utilizarás un nuevo conjunto de datos de validación para evaluar el rendimiento de tu modelo.

Algunas interacciones y sus correspondientes etiquetas se han cargado para ti como validate_text y validate_labels. También se cargan model y tokenizer.

Este ejercicio forma parte del curso

Introduction to LLMs in Python

Ver curso

Instrucciones de ejercicio

  • Extrae las etiquetas predichas de los logits del modelo que se encuentran en outputs.
  • Calcula las cuatro métricas cargadas comparando las etiquetas reales (validate_labels) y las predichas.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

accuracy = evaluate.load("accuracy")
precision = evaluate.load("precision")
recall = evaluate.load("recall")
f1 = evaluate.load("f1")

# Extract the new predictions
predicted_labels = ____

# Compute the metrics by comparing real and predicted labels
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))
Editar y ejecutar código