ComeçarComece de graça

Evitando multicolinearidade

De volta ao nosso conjunto de dados de vendas salesData, que já está carregado no workspace. Além disso, o pacote rms está carregado.

Vamos estimar uma regressão linear múltipla! Claro, queremos aproveitar todas as variáveis disponíveis no conjunto de dados.

Este exercício faz parte do curso

Machine Learning for Marketing Analytics in R

Ver curso

Instruções do exercício

  • Calcule um modelo completo chamado salesModel1 usando todas as variáveis, exceto id, para explicar as vendas deste mês. Para isso, preencha os nomes corretos das variáveis na seguinte sintaxe de exemplo: response ~ . - excluded_variable. Isso pode ser lido como "response modelado por todas as variáveis, exceto excluded_variable."
  • Estime os fatores de inflação da variância usando a função vif() do pacote rms.
  • Além de excluir a variável id, remova as variáveis preferredBrand e nBrands para evitar multicolinearidade. Você faz isso acrescentando cada uma delas com -. Armazene o modelo em um objeto chamado salesModel2.
  • Reestime os fatores de inflação da variância do modelo. Você aceitaria os resultados agora?

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Estimating the full model
salesModel1 <- lm(salesThisMon ~ . - ___, 
                 data = salesData)

# Checking variance inflation factors
vif(___)

# Estimating new model by removing information on brand
salesModel2 <- lm(salesThisMon ~ . - ___, 
                 data = ___)

# Checking variance inflation factors
___
Editar e executar o código