Utiliser des indicateurs d'évaluation
Il est temps d'évaluer votre site LLM qui classe les interactions avec le support client. Reprenant là où vous avez laissé votre modèle affiné, vous allez maintenant utiliser un nouvel ensemble de données de validation pour évaluer les performances de votre modèle.
Certaines interactions et leurs étiquettes correspondantes ont été chargées pour vous comme validate_text
et validate_labels
. Les sites model
et tokenizer
sont également chargés.
Cet exercice fait partie du cours
Introduction aux LLM en Python
Instructions
- Extraire les étiquettes prédites à partir des logits modèles trouvés dans le site
outputs
. - Calculez les quatre métriques chargées en comparant les étiquettes réelles (
validate_labels
) et les étiquettes prédites.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
accuracy = evaluate.load("accuracy")
precision = evaluate.load("precision")
recall = evaluate.load("recall")
f1 = evaluate.load("f1")
# Extract the new predictions
predicted_labels = ____
# Compute the metrics by comparing real and predicted labels
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))