Modelrapporten vergelijken
Je hebt logistic regression-modellen en gradient boosted trees gebruikt. Tijd om deze twee te vergelijken en te bepalen welk model we gebruiken voor de uiteindelijke voorspellingen.
Een van de eenvoudigste eerste stappen om het vermogen van verschillende modellen te vergelijken om de kans op wanbetaling te voorspellen, is kijken naar hun statistieken uit classification_report(). Daarmee zie je veel verschillende scoringsmaten naast elkaar voor elk model. Omdat de data en modellen meestal ongelijk verdeeld zijn met weinig wanbetalingen, focus je nu op de statistieken voor defaults.
De getrainde modellen clf_logistic en clf_gbt zijn in de workspace geladen, samen met hun voorspellingen preds_df_lr en preds_df_gbt. Voor beide is een cutoff van 0.4 gebruikt. De testset y_test is ook beschikbaar.
Deze oefening maakt deel uit van de cursus
Kredietrisicomodellering in Python
Oefeninstructies
- Print het
classification_report()voor de voorspellingen van logistic regression. - Print het
classification_report()voor de voorspellingen van de gradient boosted tree. - Print de
macro averagevan de F-1-score voor logistic regression metprecision_recall_fscore_support(). - Print de
macro averagevan de F-1-score voor de gradient boosted tree metprecision_recall_fscore_support().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Print the logistic regression classification report
target_names = ['Non-Default', 'Default']
print(____(____, ____['loan_status'], target_names=target_names))
# Print the gradient boosted tree classification report
print(____(____, ____['loan_status'], target_names=target_names))
# Print the default F-1 scores for the logistic regression
print(____(____,____['loan_status'], average = 'macro')[2])
# Print the default F-1 scores for the gradient boosted tree
print(____(____,____['loan_status'], average = 'macro')[2])