Ridurre ancora il modello?
Eliminando la variabile loan_amnt, l'AUC può essere ulteriormente migliorata a 0.6548! Il modello risultante è
log_4_remove_amnt <- glm(loan_status ~ grade + annual_inc + emp_cat, family = binomial, data = training_set)
È possibile ridurre il modello di regressione logistica a sole due variabili senza diminuire l'AUC? In questo esercizio vedrai se è possibile!
Questo esercizio fa parte del corso
Credit Risk Modeling in R
Istruzioni dell'esercizio
- Di nuovo, elimina una variabile alla volta nel modello
log_4_remove_amnt. Ricorda che dovresti usare la funzione di collegamento predefinita (logit). - Usa
predict()per ottenere le probabilità di default per ciascun modello che hai creato. - Calcola le AUC per ciascuno dei tre modelli, usando
test_set$loan_statuscome primo argomento e le previsioni di ciascuno dei tre modelli come secondo argomento. - Traccia la curva ROC per il modello con l'AUC più alta nel tuo workspace, usando
plot(roc()), dove il contenuto diroc()è lo stesso usato nella funzioneauc()con l'AUC più alta. Nota che è possibile che l'AUC non possa essere ulteriormente ridotta rispetto al modellolog_4_remove_amnt. Le previsioni per questo modello sono caricate nel tuo workspace comepred_4_remove_amnt, nel caso in cui questo modello porti all'AUC più alta.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Build three models each time deleting one variable in log_4_remove_amnt
log_5_remove_grade <- glm(loan_status ~ annual_inc + emp_cat, family = binomial, data = training_set)
log_5_remove_inc <-
log_5_remove_emp <-
# Make PD-predictions for each of the models
pred_5_remove_grade <- predict(log_5_remove_grade, newdata = test_set, type = "response")
pred_5_remove_inc <-
pred_5_remove_emp <-
# Compute the AUCs
# Plot the ROC-curve for the best model here