Un altro giro di potatura basato sull’AUC

Nel video hai visto come il modello di regressione logistica “full” con link logit è stato potato in base all’AUC. Hai visto che la variabile home_ownership è stata eliminata dal modello, perché migliorava l’AUC complessiva. Dopo aver ripetuto questo processo per altri due giri, sono state rimosse le variabili age e ir_cat, ottenendo il modello:

log_3_remove_ir <- glm(loan_status ~ loan_amnt + grade + annual_inc + emp_cat, family = binomial, data = training_set)

con un’AUC di 0,6545. Ora tocca a te verificare se l’AUC può migliorare ancora eliminando un’altra variabile dal modello.

Questo esercizio fa parte del corso

Credit Risk Modeling in R

Visualizza corso

Istruzioni dell'esercizio

Elimina una variabile alla volta nel modello log_3_remove_ir. Ricorda che dovresti usare la funzione di link predefinita (logit).
Crea previsioni della probabilità di default per ciascuno dei modelli che hai creato.
Usa la funzione auc() con test_set$loan_status come primo argomento e le previsioni di ciascuno dei quattro modelli come secondo argomento per ottenere le AUC di ciascun modello.
Copia il nome dell’oggetto (come indicato nella prima domanda di questo esercizio) che rappresenta il modello con la migliore AUC.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Build four models each time deleting one variable in log_3_remove_ir
log_4_remove_amnt <- glm(loan_status ~ grade + annual_inc + emp_cat, 
                        family = binomial, data = training_set) 
log_4_remove_grade <-
log_4_remove_inc <- 
log_4_remove_emp <-

# Make PD-predictions for each of the models
pred_4_remove_amnt <- predict(log_4_remove_amnt, newdata = test_set, type = "response")
pred_4_remove_grade <- 
pred_4_remove_inc <-
pred_4_remove_emp <- 

# Compute the AUCs

Modifica ed esegui il codice