Prestatiemetrics voor het RF-model
In de vorige oefeningen heb je een accuratescore voor je random forest-model gekregen. Dit keer weten we dat accuracy misleidend kan zijn bij fraudedetectie. Bij sterk onevenwichtige fraudedata is de AUROC-curve een betrouwbaardere prestatiemetric om verschillende classifiers te vergelijken. Bovendien vertelt het classification report je iets over de precision en recall van je model, terwijl de confusion matrix daadwerkelijk laat zien hoeveel fraudegevallen je correct kunt voorspellen. Laten we deze prestatiemetrics ophalen.
Je werkt verder met hetzelfde random forest-model uit de vorige oefening. Je model, gedefinieerd als model = RandomForestClassifier(random_state=5), is al gefit op je trainingsdata, en X_train, y_train, X_test, y_test zijn beschikbaar.
Deze oefening maakt deel uit van de cursus
Fraudedetectie in Python
Oefeninstructies
- Importeer het classification report, de confusion matrix en de ROC-score uit
sklearn.metrics. - Haal de binaire voorspellingen op van je getrainde random forest-
model. - Haal de voorspelde waarschijnlijkheden op met de functie
predict_proba(). - Verkrijg het classification report en de confusion matrix door
y_testte vergelijken metpredicted.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the packages to get the different performance metrics
from sklearn.metrics import ____, ____, ____
# Obtain the predictions from our random forest model
predicted = model.____(X_test)
# Predict probabilities
probs = ____.____(X_test)
# Print the ROC curve, classification report and confusion matrix
print(____(y_test, probs[:,1]))
print(____(____, predicted))
print(____(____, ____))