IniziaInizia gratis

Un altro giro di potatura basato sull’AUC

Nel video hai visto come il modello di regressione logistica “full” con link logit è stato potato in base all’AUC. Hai visto che la variabile home_ownership è stata eliminata dal modello, perché migliorava l’AUC complessiva. Dopo aver ripetuto questo processo per altri due giri, sono state rimosse le variabili age e ir_cat, ottenendo il modello:

log_3_remove_ir <- glm(loan_status ~ loan_amnt + grade + annual_inc + emp_cat, family = binomial, data = training_set)

con un’AUC di 0,6545. Ora tocca a te verificare se l’AUC può migliorare ancora eliminando un’altra variabile dal modello.

Questo esercizio fa parte del corso

Credit Risk Modeling in R

Visualizza il corso

Istruzioni dell'esercizio

  • Elimina una variabile alla volta nel modello log_3_remove_ir. Ricorda che dovresti usare la funzione di link predefinita (logit).
  • Crea previsioni della probabilità di default per ciascuno dei modelli che hai creato.
  • Usa la funzione auc() con test_set$loan_status come primo argomento e le previsioni di ciascuno dei quattro modelli come secondo argomento per ottenere le AUC di ciascun modello.
  • Copia il nome dell’oggetto (come indicato nella prima domanda di questo esercizio) che rappresenta il modello con la migliore AUC.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Build four models each time deleting one variable in log_3_remove_ir
log_4_remove_amnt <- glm(loan_status ~ grade + annual_inc + emp_cat, 
                        family = binomial, data = training_set) 
log_4_remove_grade <-
log_4_remove_inc <- 
log_4_remove_emp <-

# Make PD-predictions for each of the models
pred_4_remove_amnt <- predict(log_4_remove_amnt, newdata = test_set, type = "response")
pred_4_remove_grade <- 
pred_4_remove_inc <-
pred_4_remove_emp <- 

# Compute the AUCs

  
  
Modifica ed esegui il codice