CommencerCommencer gratuitement

Utiliser des indicateurs d'évaluation

Il est temps d'évaluer votre site LLM qui classe les interactions avec le support client. Reprenant là où vous avez laissé votre modèle affiné, vous allez maintenant utiliser un nouvel ensemble de données de validation pour évaluer les performances de votre modèle.

Certaines interactions et leurs étiquettes correspondantes ont été chargées pour vous comme validate_text et validate_labels. Les sites model et tokenizer sont également chargés.

Cet exercice fait partie du cours

Introduction aux LLM en Python

Afficher le cours

Instructions

  • Extraire les étiquettes prédites à partir des logits modèles trouvés dans le site outputs.
  • Calculez les quatre métriques chargées en comparant les étiquettes réelles (validate_labels) et les étiquettes prédites.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

accuracy = evaluate.load("accuracy")
precision = evaluate.load("precision")
recall = evaluate.load("recall")
f1 = evaluate.load("f1")

# Extract the new predictions
predicted_labels = ____

# Compute the metrics by comparing real and predicted labels
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))
Modifier et exécuter le code