CommencerCommencez gratuitement

Détecter la multicolinéarité

Dans cet exercice, vous allez vérifier la multicolinéarité entre toutes les variables en utilisant le Variance Inflation Factor (VIF). Vous pouvez calculer le VIF avec la fonction vif() du package car.

Les valeurs de VIF se trouvent dans la colonne GVIF de la sortie et sont généralement affichées au format exponentiel. Si vous n’êtes pas à l’aise avec ce format, vous pouvez utiliser la fonction format() :

sample_vif_value <- 2.213e+10
format(sample_vif_value, scientific = FALSE)

"22130000000"

Cet exercice fait partie du cours

<cours>Analytique RH : prédire l’attrition des employés en R</cours>
Voir le cours

Instructions de l’exercice

  • Chargez le package car.
  • Vérifiez la multicolinéarité dans le modèle (multi_log) que vous avez construit dans un exercice précédent.
  • Quelle variable a le VIF le plus élevé ? Attribuez le nom de la variable, sous forme de chaîne, à highest.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Load the car package
___

# Model you built in a previous exercise
multi_log <- glm(turnover ~ ., family = "binomial", data = train_set_multi)

# Check for multicollinearity
___

# Which variable has the highest VIF?
highest <- ___
Modifier et exécuter le code