Metriken auswerten
Es ist an der Zeit, deine LLM zu bewerten, die die Interaktionen im Kundensupport klassifiziert. Du machst da weiter, wo du mit deinem fein abgestimmten Modell aufgehört hast und verwendest nun einen neuen Validierungsdatensatz, um die Leistung deines Modells zu bewerten.
Einige Interaktionen und die dazugehörigen Labels wurden für dich als validate_text
und validate_labels
geladen. Die Seiten model
und tokenizer
sind ebenfalls geladen.
Diese Übung ist Teil des Kurses
Einführung in LLMs in Python
Anleitung zur Übung
- Extrahiere die vorhergesagten Labels aus den Modell-Logits, die du auf
outputs
findest. - Berechne die vier geladenen Metriken, indem du die realen (
validate_labels
) und die vorhergesagten Labels vergleichst.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
accuracy = evaluate.load("accuracy")
precision = evaluate.load("precision")
recall = evaluate.load("recall")
f1 = evaluate.load("f1")
# Extract the new predictions
predicted_labels = ____
# Compute the metrics by comparing real and predicted labels
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))
print(____(____=____, predictions=predicted_labels))