Gérer la multicolinéarité
Dans l’exercice précédent, vous avez constaté la présence de multicolinéarité dans votre modèle en examinant les valeurs de VIF des variables indépendantes. Suivez les étapes ci-dessous pour éliminer la multicolinéarité :
- Étape 1 : Calculer le VIF du modèle
- Étape 2 : Identifier si une variable a un VIF supérieur ou égal à 5
- Étape 2a : Retirer la variable du modèle si son VIF est supérieur ou égal à 5
- Étape 2b : S’il y a plusieurs variables avec un VIF supérieur à 5, ne retirer que la variable avec le VIF le plus élevé
- Étape 3 : Répétez les étapes 1 et 2 jusqu’à ce que le VIF de toutes les variables soit inférieur à 5
Cet exercice fait partie du cours
Analytique RH : prédire l’attrition des employés en R
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Remove level
model_1 <- glm(turnover ~ . - ___, family = "binomial",
data = train_set_multi)
# Check multicollinearity again
___
# Which variable has the highest VIF value?
highest <- ___