Multicollineariteit detecteren
In deze oefening controleer je op multicollineariteit tussen alle variabelen met de Variance Inflation Factor (VIF). Je kunt de VIF berekenen met de functie vif() uit het pakket car.
De VIF-waarden staan in de kolom GVIF van de output en worden meestal in exponentnotatie weergegeven. Als je niet vertrouwd bent met dit formaat, kun je de functie format() gebruiken:
sample_vif_value <- 2.213e+10
format(sample_vif_value, scientific = FALSE)
"22130000000"
Deze oefening maakt deel uit van de cursus
HR-analytics: verloop van medewerkers voorspellen in R
Oefeninstructies
- Laad het pakket
car. - Controleer op multicollineariteit in het model (
multi_log) dat je in een vorige oefening hebt gebouwd. - Welke variabele heeft de hoogste VIF? Ken de variabelenaam als string toe aan
highest.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load the car package
___
# Model you built in a previous exercise
multi_log <- glm(turnover ~ ., family = "binomial", data = train_set_multi)
# Check for multicollinearity
___
# Which variable has the highest VIF?
highest <- ___