Prestatiemetrics voor het RF-model

In de vorige oefeningen heb je een accuratescore voor je random forest-model gekregen. Dit keer weten we dat accuracy misleidend kan zijn bij fraudedetectie. Bij sterk onevenwichtige fraudedata is de AUROC-curve een betrouwbaardere prestatiemetric om verschillende classifiers te vergelijken. Bovendien vertelt het classification report je iets over de precision en recall van je model, terwijl de confusion matrix daadwerkelijk laat zien hoeveel fraudegevallen je correct kunt voorspellen. Laten we deze prestatiemetrics ophalen.

Je werkt verder met hetzelfde random forest-model uit de vorige oefening. Je model, gedefinieerd als model = RandomForestClassifier(random_state=5), is al gefit op je trainingsdata, en X_train, y_train, X_test, y_test zijn beschikbaar.

Deze oefening maakt deel uit van de cursus

Fraudedetectie in Python

Cursus bekijken

Oefeninstructies

Importeer het classification report, de confusion matrix en de ROC-score uit sklearn.metrics.
Haal de binaire voorspellingen op van je getrainde random forest-model.
Haal de voorspelde waarschijnlijkheden op met de functie predict_proba().
Verkrijg het classification report en de confusion matrix door y_test te vergelijken met predicted.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import the packages to get the different performance metrics
from sklearn.metrics import ____, ____, ____

# Obtain the predictions from our random forest model 
predicted = model.____(X_test)

# Predict probabilities
probs = ____.____(X_test)

# Print the ROC curve, classification report and confusion matrix
print(____(y_test, probs[:,1]))
print(____(____, predicted))
print(____(____, ____))

Code bewerken en uitvoeren