ComeçarComece de graça

Mais uma rodada de poda baseada em AUC

No vídeo, você viu como o modelo de regressão logística "completo" com link logit foi podado com base na AUC. Você viu que a variável home_ownership foi removida do modelo, pois melhorou a AUC geral. Após repetir esse processo por mais duas rodadas, as variáveis age e ir_cat foram removidas, levando ao modelo:

log_3_remove_ir <- glm(loan_status ~ loan_amnt + grade + annual_inc + emp_cat, family = binomial, data = training_set)

com uma AUC de 0,6545. Agora é a sua vez de verificar se a AUC ainda pode ser melhorada removendo mais uma variável do modelo.

Este exercício faz parte do curso

Modelagem de Risco de Crédito em R

Ver curso

Instruções do exercício

  • Remova uma variável por vez do modelo log_3_remove_ir. Lembre-se de que você deve usar a função de link padrão (logit).
  • Faça previsões de probabilidade de inadimplência para cada um dos modelos que você criar.
  • Use a função auc() com test_set$loan_status como primeiro argumento e as previsões de cada um dos quatro modelos como segundo argumento para obter a AUC de cada modelo.
  • Copie o nome do objeto (conforme indicado na primeira questão deste exercício) que representa o modelo com a melhor AUC.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Build four models each time deleting one variable in log_3_remove_ir
log_4_remove_amnt <- glm(loan_status ~ grade + annual_inc + emp_cat, 
                        family = binomial, data = training_set) 
log_4_remove_grade <-
log_4_remove_inc <- 
log_4_remove_emp <-

# Make PD-predictions for each of the models
pred_4_remove_amnt <- predict(log_4_remove_amnt, newdata = test_set, type = "response")
pred_4_remove_grade <- 
pred_4_remove_inc <-
pred_4_remove_emp <- 

# Compute the AUCs

  
  
Editar e executar o código