Un altro giro di potatura basato sull’AUC
Nel video hai visto come il modello di regressione logistica “full” con link logit è stato potato in base all’AUC. Hai visto che la variabile home_ownership è stata eliminata dal modello, perché migliorava l’AUC complessiva. Dopo aver ripetuto questo processo per altri due giri, sono state rimosse le variabili age e ir_cat, ottenendo il modello:
log_3_remove_ir <- glm(loan_status ~ loan_amnt + grade + annual_inc + emp_cat, family = binomial, data = training_set)
con un’AUC di 0,6545. Ora tocca a te verificare se l’AUC può migliorare ancora eliminando un’altra variabile dal modello.
Questo esercizio fa parte del corso
Credit Risk Modeling in R
Istruzioni dell'esercizio
- Elimina una variabile alla volta nel modello
log_3_remove_ir. Ricorda che dovresti usare la funzione di link predefinita (logit). - Crea previsioni della probabilità di default per ciascuno dei modelli che hai creato.
- Usa la funzione
auc()contest_set$loan_statuscome primo argomento e le previsioni di ciascuno dei quattro modelli come secondo argomento per ottenere le AUC di ciascun modello. - Copia il nome dell’oggetto (come indicato nella prima domanda di questo esercizio) che rappresenta il modello con la migliore AUC.
esercizio interattivo pratico
Prova questo esercizio completando questo codice di esempio.
# Build four models each time deleting one variable in log_3_remove_ir
log_4_remove_amnt <- glm(loan_status ~ grade + annual_inc + emp_cat,
family = binomial, data = training_set)
log_4_remove_grade <-
log_4_remove_inc <-
log_4_remove_emp <-
# Make PD-predictions for each of the models
pred_4_remove_amnt <- predict(log_4_remove_amnt, newdata = test_set, type = "response")
pred_4_remove_grade <-
pred_4_remove_inc <-
pred_4_remove_emp <-
# Compute the AUCs