Bewertungsmetriken einsetzen
Bewerte nun, wie gut dein LLM Interaktionen mit dem Kundendienst klassifiziert. Du machst mit deinem fein abgestimmten Modell weiter und nutzt jetzt einen neuen Validierungsdatensatz, um die Leistung deines Modells zu bewerten.
Einige Interaktionen und die dazugehörigen Labels wurden für dich als validate_text und validate_labels geladen. model und tokenizer sind auch geladen.
Diese Übung ist Teil des Kurses
<Kurs>Einführung in LLMs mit Python</Kurs>Übungsanweisungen
- Extrahiere die vorhergesagten Labels aus den Modell-Logits, die du in den
outputsfindest. - Berechne die vier geladenen Kennzahlen, indem du die vorhergesagten und die tatsächlichen (
validate_labels) Labels vergleichst.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
accuracy = evaluate.load("accuracy")
precision = evaluate.load("precision")
recall = evaluate.load("recall")
f1 = evaluate.load("f1")
# Extract the new predictions
predicted_labels = ____
# Compute the metrics by comparing real and predicted labels
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))