Mais uma rodada de poda baseada em AUC
No vídeo, você viu como o modelo de regressão logística "completo" com link logit foi podado com base na AUC. Você viu que a variável home_ownership foi removida do modelo, pois melhorou a AUC geral. Após repetir esse processo por mais duas rodadas, as variáveis age e ir_cat foram removidas, levando ao modelo:
log_3_remove_ir <- glm(loan_status ~ loan_amnt + grade + annual_inc + emp_cat, family = binomial, data = training_set)
com uma AUC de 0,6545. Agora é a sua vez de verificar se a AUC ainda pode ser melhorada removendo mais uma variável do modelo.
Este exercício faz parte do curso
Modelagem de Risco de Crédito em R
Instruções do exercício
- Remova uma variável por vez do modelo
log_3_remove_ir. Lembre-se de que você deve usar a função de link padrão (logit). - Faça previsões de probabilidade de inadimplência para cada um dos modelos que você criar.
- Use a função
auc()comtest_set$loan_statuscomo primeiro argumento e as previsões de cada um dos quatro modelos como segundo argumento para obter a AUC de cada modelo. - Copie o nome do objeto (conforme indicado na primeira questão deste exercício) que representa o modelo com a melhor AUC.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Build four models each time deleting one variable in log_3_remove_ir
log_4_remove_amnt <- glm(loan_status ~ grade + annual_inc + emp_cat,
family = binomial, data = training_set)
log_4_remove_grade <-
log_4_remove_inc <-
log_4_remove_emp <-
# Make PD-predictions for each of the models
pred_4_remove_amnt <- predict(log_4_remove_amnt, newdata = test_set, type = "response")
pred_4_remove_grade <-
pred_4_remove_inc <-
pred_4_remove_emp <-
# Compute the AUCs