Un altro giro di potatura basato sull’AUC
Nel video hai visto come il modello di regressione logistica “full” con link logit è stato potato in base all’AUC. Hai visto che la variabile home_ownership è stata eliminata dal modello, perché migliorava l’AUC complessiva. Dopo aver ripetuto questo processo per altri due giri, sono state rimosse le variabili age e ir_cat, ottenendo il modello:
log_3_remove_ir <- glm(loan_status ~ loan_amnt + grade + annual_inc + emp_cat, family = binomial, data = training_set)
con un’AUC di 0,6545. Ora tocca a te verificare se l’AUC può migliorare ancora eliminando un’altra variabile dal modello.
Questo esercizio fa parte del corso
Credit Risk Modeling in R
Istruzioni dell'esercizio
- Elimina una variabile alla volta nel modello
log_3_remove_ir. Ricorda che dovresti usare la funzione di link predefinita (logit). - Crea previsioni della probabilità di default per ciascuno dei modelli che hai creato.
- Usa la funzione
auc()contest_set$loan_statuscome primo argomento e le previsioni di ciascuno dei quattro modelli come secondo argomento per ottenere le AUC di ciascun modello. - Copia il nome dell’oggetto (come indicato nella prima domanda di questo esercizio) che rappresenta il modello con la migliore AUC.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Build four models each time deleting one variable in log_3_remove_ir
log_4_remove_amnt <- glm(loan_status ~ grade + annual_inc + emp_cat,
family = binomial, data = training_set)
log_4_remove_grade <-
log_4_remove_inc <-
log_4_remove_emp <-
# Make PD-predictions for each of the models
pred_4_remove_amnt <- predict(log_4_remove_amnt, newdata = test_set, type = "response")
pred_4_remove_grade <-
pred_4_remove_inc <-
pred_4_remove_emp <-
# Compute the AUCs