LoslegenKostenlos loslegen

Leistungskennzahlen für das RF-Modell

In den vorherigen Übungen hast du eine Accuracy für dein Random-Forest-Modell ermittelt. Diesmal wissen wir: Accuracy kann irreführend sein bei Fraud Detection. Bei stark unausgewogenen Fraud-Daten ist die AUROC-Kurve eine zuverlässigere Leistungskennzahl, um verschiedene Klassifikatoren zu vergleichen. Außerdem informiert dich der Classification Report über Precision und Recall deines Modells, während die Confusion Matrix tatsächlich zeigt, wie viele Fraud-Fälle du korrekt vorhersagen kannst. Lass uns also diese Leistungskennzahlen bestimmen.

Du arbeitest weiter mit demselben Random-Forest-Modell aus der vorherigen Übung. Dein Modell, definiert als model = RandomForestClassifier(random_state=5), wurde bereits auf deine Trainingsdaten gefittet, und X_train, y_train, X_test, y_test stehen bereit.

Diese Übung ist Teil des Kurses

Betrugserkennung mit Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere den Classification Report, die Confusion Matrix und den ROC-Score aus sklearn.metrics.
  • Erzeuge die binären Vorhersagen mit deinem trainierten Random-Forest-model.
  • Hole dir die vorhergesagten Wahrscheinlichkeiten mit der Funktion predict_proba().
  • Ermittle Classification Report und Confusion Matrix, indem du y_test mit predicted vergleichst.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import the packages to get the different performance metrics
from sklearn.metrics import ____, ____, ____

# Obtain the predictions from our random forest model 
predicted = model.____(X_test)

# Predict probabilities
probs = ____.____(X_test)

# Print the ROC curve, classification report and confusion matrix
print(____(y_test, probs[:,1]))
print(____(____, predicted))
print(____(____, ____))
Code bearbeiten und ausführen