Usare le metriche di evaluate
È il momento di valutare il tuo LLM che classifica le interazioni con l'assistenza clienti. Riprendendo dal modello messo a punto, ora utilizzerai un nuovo insieme di validazione per valutare le prestazioni del tuo modello.
Alcune interazioni e le relative etichette sono state caricate per te come validate_text e validate_labels. Anche model e tokenizer sono già caricati.
Questo esercizio fa parte del corso
Introduzione agli LLM in Python
Istruzioni dell'esercizio
- Estrai le etichette previste dai logits del modello presenti in
outputs. - Calcola le quattro metriche caricate confrontando le etichette reali (
validate_labels) con quelle previste.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
accuracy = evaluate.load("accuracy")
precision = evaluate.load("precision")
recall = evaluate.load("recall")
f1 = evaluate.load("f1")
# Extract the new predictions
predicted_labels = ____
# Compute the metrics by comparing real and predicted labels
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))