Aan de slagGa gratis aan de slag

Nog verder model reduceren?

Door de variabele loan_amnt te verwijderen, kan de AUC verder worden verbeterd tot 0.6548! Het resulterende model is

log_4_remove_amnt <- glm(loan_status ~ grade + annual_inc + emp_cat, family = binomial, data = training_set) 

Is het mogelijk om het logistische regressiemodel te reduceren tot slechts twee variabelen zonder de AUC te verlagen? In deze oefening ga je dat onderzoeken!

Deze oefening maakt deel uit van de cursus

Kredietrisicomodellering in R

Cursus bekijken

Oefeninstructies

  • Verwijder opnieuw één variabele per keer uit het model log_4_remove_amnt. Denk eraan dat je de standaard koppelingsfunctie (logit) gebruikt.
  • Gebruik predict() om voor elk gemaakt model de kans op wanbetaling te voorspellen.
  • Bepaal de AUC's voor elk van de drie modellen, met test_set$loan_status als eerste argument en de voorspellingen voor elk van de drie modellen als tweede argument.
  • Plot de ROC-curve voor het model met de hoogste AUC in je werkruimte met plot(roc()), waarbij de inhoud van roc() hetzelfde is als de inhoud voor de functie auc() met de hoogste AUC. Het is mogelijk dat de AUC niet verder kan worden verlaagd ten opzichte van model log_4_remove_amnt. De voorspellingen voor dit model zijn in je werkruimte geladen als pred_4_remove_amnt, voor het geval dit model de hoogste AUC oplevert.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Build three models each time deleting one variable in log_4_remove_amnt
log_5_remove_grade <- glm(loan_status ~ annual_inc + emp_cat, family = binomial, data = training_set) 
log_5_remove_inc <- 
log_5_remove_emp <- 

# Make PD-predictions for each of the models
pred_5_remove_grade <- predict(log_5_remove_grade, newdata = test_set, type = "response")
pred_5_remove_inc <-
pred_5_remove_emp <-

# Compute the AUCs



# Plot the ROC-curve for the best model here
Code bewerken en uitvoeren