Détecter la multicolinéarité
Dans cet exercice, vous allez vérifier la multicolinéarité entre toutes les variables en utilisant le Variance Inflation Factor (VIF). Vous pouvez calculer le VIF avec la fonction vif() du package car.
Les valeurs de VIF se trouvent dans la colonne GVIF de la sortie et sont généralement affichées au format exponentiel. Si vous n’êtes pas à l’aise avec ce format, vous pouvez utiliser la fonction format() :
sample_vif_value <- 2.213e+10
format(sample_vif_value, scientific = FALSE)
"22130000000"
Cet exercice fait partie du cours
Analytique RH : prédire l’attrition des employés en R
Instructions
- Chargez le package
car. - Vérifiez la multicolinéarité dans le modèle (
multi_log) que vous avez construit dans un exercice précédent. - Quelle variable a le VIF le plus élevé ? Attribuez le nom de la variable, sous forme de chaîne, à
highest.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Load the car package
___
# Model you built in a previous exercise
multi_log <- glm(turnover ~ ., family = "binomial", data = train_set_multi)
# Check for multicollinearity
___
# Which variable has the highest VIF?
highest <- ___