Nog verder model reduceren?
Door de variabele loan_amnt te verwijderen, kan de AUC verder worden verbeterd tot 0.6548! Het resulterende model is
log_4_remove_amnt <- glm(loan_status ~ grade + annual_inc + emp_cat, family = binomial, data = training_set)
Is het mogelijk om het logistische regressiemodel te reduceren tot slechts twee variabelen zonder de AUC te verlagen? In deze oefening ga je dat onderzoeken!
Deze oefening maakt deel uit van de cursus
Kredietrisicomodellering in R
Oefeninstructies
- Verwijder opnieuw één variabele per keer uit het model
log_4_remove_amnt. Denk eraan dat je de standaard koppelingsfunctie (logit) gebruikt. - Gebruik
predict()om voor elk gemaakt model de kans op wanbetaling te voorspellen. - Bepaal de AUC's voor elk van de drie modellen, met
test_set$loan_statusals eerste argument en de voorspellingen voor elk van de drie modellen als tweede argument. - Plot de ROC-curve voor het model met de hoogste AUC in je werkruimte met
plot(roc()), waarbij de inhoud vanroc()hetzelfde is als de inhoud voor de functieauc()met de hoogste AUC. Het is mogelijk dat de AUC niet verder kan worden verlaagd ten opzichte van modellog_4_remove_amnt. De voorspellingen voor dit model zijn in je werkruimte geladen alspred_4_remove_amnt, voor het geval dit model de hoogste AUC oplevert.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Build three models each time deleting one variable in log_4_remove_amnt
log_5_remove_grade <- glm(loan_status ~ annual_inc + emp_cat, family = binomial, data = training_set)
log_5_remove_inc <-
log_5_remove_emp <-
# Make PD-predictions for each of the models
pred_5_remove_grade <- predict(log_5_remove_grade, newdata = test_set, type = "response")
pred_5_remove_inc <-
pred_5_remove_emp <-
# Compute the AUCs
# Plot the ROC-curve for the best model here