Evitando multicolinearidade
De volta ao nosso conjunto de dados de vendas salesData, que já está carregado no workspace. Além disso, o pacote rms está carregado.
Vamos estimar uma regressão linear múltipla! Claro, queremos aproveitar todas as variáveis disponíveis no conjunto de dados.
Este exercício faz parte do curso
Machine Learning for Marketing Analytics in R
Instruções do exercício
- Calcule um modelo completo chamado
salesModel1usando todas as variáveis, excetoid, para explicar as vendas deste mês. Para isso, preencha os nomes corretos das variáveis na seguinte sintaxe de exemplo:response ~ . - excluded_variable. Isso pode ser lido como "responsemodelado por todas as variáveis, excetoexcluded_variable." - Estime os fatores de inflação da variância usando a função
vif()do pacoterms. - Além de excluir a variável
id, remova as variáveispreferredBrandenBrandspara evitar multicolinearidade. Você faz isso acrescentando cada uma delas com-. Armazene o modelo em um objeto chamadosalesModel2. - Reestime os fatores de inflação da variância do modelo. Você aceitaria os resultados agora?
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Estimating the full model
salesModel1 <- lm(salesThisMon ~ . - ___,
data = salesData)
# Checking variance inflation factors
vif(___)
# Estimating new model by removing information on brand
salesModel2 <- lm(salesThisMon ~ . - ___,
data = ___)
# Checking variance inflation factors
___