Múltiplas variáveis em um modelo de regressão logística
A interpretação de um único parâmetro continua valendo ao incluir várias variáveis em um modelo. Quando você inclui várias variáveis e pede a interpretação ao mudar uma variável específica, assume-se que as demais permanecem constantes, ou inalteradas. Existe uma expressão latina elegante para isso, ceteris paribus, que significa literalmente "mantendo todas as outras iguais".
Para construir um modelo de regressão logística com múltiplas variáveis, você pode usar o sinal + para adicionar variáveis. Sua fórmula ficará algo como:
y ~ x1 + ... + xk
Para avaliar o modelo, há algumas coisas importantes a observar. Você já analisou os valores dos parâmetros, mas isso não é o único ponto relevante. Também é importante a significância estatística de uma determinada estimativa de parâmetro. A significância de um parâmetro costuma ser chamada de p-valor, porém, na saída do modelo, você a verá indicada como Pr(>|t|). Em glm, significância fraca é indicada por um "." até significância muito forte indicada por "***". Quando um parâmetro não é significativo, isso significa que você não pode garantir que esse parâmetro seja significativamente diferente de 0. A significância estatística é importante. Em geral, só faz sentido interpretar o efeito sobre o default para parâmetros significativos.
Este exercício faz parte do curso
Modelagem de Risco de Crédito em R
Instruções do exercício
- Crie um modelo de regressão logística usando a função
glm()e otraining_set. Inclua as variáveisage,ir_cat,grade,loan_amnteannual_inc. Chame esse modelo delog_model_multi. - Obtenha os níveis de significância usando
summary()em combinação com o nosso modelo. Você vai se aprofundar no que os níveis de significância significam no próximo exercício!
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Build the logistic regression model
# Obtain significance levels using summary()