Aan de slagGa gratis aan de slag

VIF berekenen

Zoals je in de video hebt geleerd, is een van de meest gebruikte diagnostische maten voor multicollineariteit de variance inflation factor, of VIF, die voor elke verklarende variabele wordt berekend.

Onthoud uit de video dat de vuistregel een drempelwaarde is van VIF op het niveau van 2,5. Dat betekent: als de VIF boven 2,5 ligt, moet je ervan uitgaan dat multicollineariteit van invloed is op je gefitte model.

Het eerder gefitte model en de crab-gegevensset zijn al voor je ingeladen in de werkruimte.

Deze oefening maakt deel uit van de cursus

Generalized Linear Models in Python

Cursus bekijken

Oefeninstructies

  • Importeer variance_inflation_factor uit statsmodels.
  • Kies in de crab-gegevensset de variabelen weight, width en color en sla deze op als X. Voeg een Intercept-kolom met enen toe aan X.
  • Maak met de pandas-functie DataFrame() een lege vif-dataframe en zet de kolomnamen van X in de kolom Variables.
  • Bereken voor elke variabele de VIF met de functie variance_inflation_factor() en sla deze op in de vif-dataframe in de kolom VIF.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import functions
from statsmodels.stats.outliers_influence import ____

# Get variables for which to compute VIF and add intercept term
X = ____[[____, ____, ____]]
X[____] = 1

# Compute and view VIF
vif = pd.____
vif["variables"] = X.____
vif["VIF"] = [____(X.values, i) for i in range(X.shape[1])]

# View results using print
____(____)
Code bewerken en uitvoeren