Redução adicional do modelo?
Ao excluir a variável loan_amnt, a AUC pode ser ainda mais melhorada para 0.6548! O modelo resultante é
log_4_remove_amnt <- glm(loan_status ~ grade + annual_inc + emp_cat, family = binomial, data = training_set)
É possível reduzir o modelo de regressão logística para apenas duas variáveis sem reduzir a AUC? Neste exercício você vai descobrir se isso é possível!
Este exercício faz parte do curso
Modelagem de Risco de Crédito em R
Instruções do exercício
- Novamente, exclua uma variável por vez no modelo
log_4_remove_amnt. Lembre-se de que você deve usar a função de link padrão (logit). - Use
predict()para gerar previsões de probabilidade de inadimplência para cada modelo que você criou. - Obtenha as AUCs para cada um dos três modelos, usando
test_set$loan_statuscomo primeiro argumento e as previsões de cada um dos três modelos como segundo argumento. - Plote a curva ROC para o modelo com a maior AUC no seu workspace, usando
plot(roc()), em que o conteúdo deroc()é o mesmo usado na funçãoauc()que gerou a maior AUC. Observe que é possível que a AUC não possa ser mais reduzida em relação ao modelolog_4_remove_amnt. As previsões para esse modelo estão carregadas no seu workspace comopred_4_remove_amnt, caso esse modelo apresente a maior AUC.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Build three models each time deleting one variable in log_4_remove_amnt
log_5_remove_grade <- glm(loan_status ~ annual_inc + emp_cat, family = binomial, data = training_set)
log_5_remove_inc <-
log_5_remove_emp <-
# Make PD-predictions for each of the models
pred_5_remove_grade <- predict(log_5_remove_grade, newdata = test_set, type = "response")
pred_5_remove_inc <-
pred_5_remove_emp <-
# Compute the AUCs
# Plot the ROC-curve for the best model here