Aan de slagGa gratis aan de slag

Multicollineariteit detecteren

In deze oefening controleer je op multicollineariteit tussen alle variabelen met de Variance Inflation Factor (VIF). Je kunt de VIF berekenen met de functie vif() uit het pakket car.

De VIF-waarden staan in de kolom GVIF van de output en worden meestal in exponentnotatie weergegeven. Als je niet vertrouwd bent met dit formaat, kun je de functie format() gebruiken:

sample_vif_value <- 2.213e+10
format(sample_vif_value, scientific = FALSE)

"22130000000"

Deze oefening maakt deel uit van de cursus

HR-analytics: verloop van medewerkers voorspellen in R

Cursus bekijken

Oefeninstructies

  • Laad het pakket car.
  • Controleer op multicollineariteit in het model (multi_log) dat je in een vorige oefening hebt gebouwd.
  • Welke variabele heeft de hoogste VIF? Ken de variabelenaam als string toe aan highest.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Load the car package
___

# Model you built in a previous exercise
multi_log <- glm(turnover ~ ., family = "binomial", data = train_set_multi)

# Check for multicollinearity
___

# Which variable has the highest VIF?
highest <- ___
Code bewerken en uitvoeren