CommencerCommencer gratuitement

Détecter la multicolinéarité

Dans cet exercice, vous allez vérifier la multicolinéarité entre toutes les variables en utilisant le Variance Inflation Factor (VIF). Vous pouvez calculer le VIF avec la fonction vif() du package car.

Les valeurs de VIF se trouvent dans la colonne GVIF de la sortie et sont généralement affichées au format exponentiel. Si vous n’êtes pas à l’aise avec ce format, vous pouvez utiliser la fonction format() :

sample_vif_value <- 2.213e+10
format(sample_vif_value, scientific = FALSE)

"22130000000"

Cet exercice fait partie du cours

Analytique RH : prédire l’attrition des employés en R

Afficher le cours

Instructions

  • Chargez le package car.
  • Vérifiez la multicolinéarité dans le modèle (multi_log) que vous avez construit dans un exercice précédent.
  • Quelle variable a le VIF le plus élevé ? Attribuez le nom de la variable, sous forme de chaîne, à highest.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Load the car package
___

# Model you built in a previous exercise
multi_log <- glm(turnover ~ ., family = "binomial", data = train_set_multi)

# Check for multicollinearity
___

# Which variable has the highest VIF?
highest <- ___
Modifier et exécuter le code