Aan de slagGa gratis aan de slag

Multicollineariteit vermijden

Terug naar onze verkoopgegevensset salesData, die al in de werkruimte is geladen. Daarnaast is het pakket rms geladen.

Laten we een multiple lineaire regressie schatten! Natuurlijk willen we alle variabelen in de gegevensset gebruiken.

Deze oefening maakt deel uit van de cursus

Machine Learning for Marketing Analytics in R

Cursus bekijken

Oefeninstructies

  • Bereken een volledig model met de naam salesModel1 met alle variabelen behalve id om de verkopen van deze maand te verklaren. Vul hiervoor de juiste variabelen in in de volgende dummy-syntaxis: response ~ . - excluded_variable. Dit lees je als: "response gemodelleerd door alle variabelen behalve excluded_variable."
  • Schat de variance inflation factors met de functie vif() uit het pakket rms.
  • Verwijder, naast de variabele id, ook de variabelen preferredBrand en nBrands om multicollineariteit te voorkomen. Dit doe je door ze elk toe te voegen met -. Sla het model op in een object salesModel2.
  • Schat de variance inflation factors van het model opnieuw. Zou je de resultaten nu accepteren?

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Estimating the full model
salesModel1 <- lm(salesThisMon ~ . - ___, 
                 data = salesData)

# Checking variance inflation factors
vif(___)

# Estimating new model by removing information on brand
salesModel2 <- lm(salesThisMon ~ . - ___, 
                 data = ___)

# Checking variance inflation factors
___
Code bewerken en uitvoeren