Aan de slagBegin gratis

Multicollineariteit vermijden

Terug naar onze verkoopgegevensset salesData, die al in de werkruimte is geladen. Daarnaast is het pakket rms geladen.

Laten we een multiple lineaire regressie schatten! Natuurlijk willen we alle variabelen in de gegevensset gebruiken.

Deze oefening maakt deel uit van de cursus

Machine Learning for Marketing Analytics in R

Bekijk cursus

Oefeninstructies

  • Bereken een volledig model met de naam salesModel1 met alle variabelen behalve id om de verkopen van deze maand te verklaren. Vul hiervoor de juiste variabelen in in de volgende dummy-syntaxis: response ~ . - excluded_variable. Dit lees je als: "response gemodelleerd door alle variabelen behalve excluded_variable."
  • Schat de variance inflation factors met de functie vif() uit het pakket rms.
  • Verwijder, naast de variabele id, ook de variabelen preferredBrand en nBrands om multicollineariteit te voorkomen. Dit doe je door ze elk toe te voegen met -. Sla het model op in een object salesModel2.
  • Schat de variance inflation factors van het model opnieuw. Zou je de resultaten nu accepteren?

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Estimating the full model
salesModel1 <- lm(salesThisMon ~ . - ___, 
                 data = salesData)

# Checking variance inflation factors
vif(___)

# Estimating new model by removing information on brand
salesModel2 <- lm(salesThisMon ~ . - ___, 
                 data = ___)

# Checking variance inflation factors
___
Code bewerken en uitvoeren