Leistungskennzahlen für das RF-Modell
In den vorherigen Übungen hast du eine Accuracy für dein Random-Forest-Modell ermittelt. Diesmal wissen wir: Accuracy kann irreführend sein bei Fraud Detection. Bei stark unausgewogenen Fraud-Daten ist die AUROC-Kurve eine zuverlässigere Leistungskennzahl, um verschiedene Klassifikatoren zu vergleichen. Außerdem informiert dich der Classification Report über Precision und Recall deines Modells, während die Confusion Matrix tatsächlich zeigt, wie viele Fraud-Fälle du korrekt vorhersagen kannst. Lass uns also diese Leistungskennzahlen bestimmen.
Du arbeitest weiter mit demselben Random-Forest-Modell aus der vorherigen Übung. Dein Modell, definiert als model = RandomForestClassifier(random_state=5), wurde bereits auf deine Trainingsdaten gefittet, und X_train, y_train, X_test, y_test stehen bereit.
Diese Übung ist Teil des Kurses
Betrugserkennung mit Python
Anleitung zur Übung
- Importiere den Classification Report, die Confusion Matrix und den ROC-Score aus
sklearn.metrics. - Erzeuge die binären Vorhersagen mit deinem trainierten Random-Forest-
model. - Hole dir die vorhergesagten Wahrscheinlichkeiten mit der Funktion
predict_proba(). - Ermittle Classification Report und Confusion Matrix, indem du
y_testmitpredictedvergleichst.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the packages to get the different performance metrics
from sklearn.metrics import ____, ____, ____
# Obtain the predictions from our random forest model
predicted = model.____(X_test)
# Predict probabilities
probs = ____.____(X_test)
# Print the ROC curve, classification report and confusion matrix
print(____(y_test, probs[:,1]))
print(____(____, predicted))
print(____(____, ____))