Bewertungsmetriken einsetzen
Bewerte nun, wie gut dein LLM Interaktionen mit dem Kundendienst klassifiziert. Du machst mit deinem fein abgestimmten Modell weiter und nutzt jetzt einen neuen Validierungsdatensatz, um die Leistung deines Modells zu bewerten.
Einige Interaktionen und die dazugehörigen Labels wurden für dich als validate_text und validate_labels geladen. model und tokenizer sind auch geladen.
Diese Übung ist Teil des Kurses
Einführung in LLMs mit Python
Anleitung zur Übung
- Extrahiere die vorhergesagten Labels aus den Modell-Logits, die du in den
outputsfindest. - Berechne die vier geladenen Kennzahlen, indem du die vorhergesagten und die tatsächlichen (
validate_labels) Labels vergleichst.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
accuracy = evaluate.load("accuracy")
precision = evaluate.load("precision")
recall = evaluate.load("recall")
f1 = evaluate.load("f1")
# Extract the new predictions
predicted_labels = ____
# Compute the metrics by comparing real and predicted labels
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))