Modelrapporten vergelijken

Je hebt logistic regression-modellen en gradient boosted trees gebruikt. Tijd om deze twee te vergelijken en te bepalen welk model we gebruiken voor de uiteindelijke voorspellingen.

Een van de eenvoudigste eerste stappen om het vermogen van verschillende modellen te vergelijken om de kans op wanbetaling te voorspellen, is kijken naar hun statistieken uit classification_report(). Daarmee zie je veel verschillende scoringsmaten naast elkaar voor elk model. Omdat de data en modellen meestal ongelijk verdeeld zijn met weinig wanbetalingen, focus je nu op de statistieken voor defaults.

De getrainde modellen clf_logistic en clf_gbt zijn in de workspace geladen, samen met hun voorspellingen preds_df_lr en preds_df_gbt. Voor beide is een cutoff van 0.4 gebruikt. De testset y_test is ook beschikbaar.

Deze oefening maakt deel uit van de cursus

Kredietrisicomodellering in Python

Bekijk cursus

Oefeninstructies

Print het classification_report() voor de voorspellingen van logistic regression.
Print het classification_report() voor de voorspellingen van de gradient boosted tree.
Print de macro average van de F-1-score voor logistic regression met precision_recall_fscore_support().
Print de macro average van de F-1-score voor de gradient boosted tree met precision_recall_fscore_support().

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Print the logistic regression classification report
target_names = ['Non-Default', 'Default']
print(____(____, ____['loan_status'], target_names=target_names))

# Print the gradient boosted tree classification report
print(____(____, ____['loan_status'], target_names=target_names))

# Print the default F-1 scores for the logistic regression
print(____(____,____['loan_status'], average = 'macro')[2])

# Print the default F-1 scores for the gradient boosted tree
print(____(____,____['loan_status'], average = 'macro')[2])

Code bewerken en uitvoeren