Multicollineariteit vermijden
Terug naar onze verkoopgegevensset salesData, die al in de werkruimte is geladen. Daarnaast is het pakket rms geladen.
Laten we een multiple lineaire regressie schatten! Natuurlijk willen we alle variabelen in de gegevensset gebruiken.
Deze oefening maakt deel uit van de cursus
Machine Learning for Marketing Analytics in R
Oefeninstructies
- Bereken een volledig model met de naam
salesModel1met alle variabelen behalveidom de verkopen van deze maand te verklaren. Vul hiervoor de juiste variabelen in in de volgende dummy-syntaxis:response ~ . - excluded_variable. Dit lees je als: "responsegemodelleerd door alle variabelen behalveexcluded_variable." - Schat de variance inflation factors met de functie
vif()uit het pakketrms. - Verwijder, naast de variabele
id, ook de variabelenpreferredBrandennBrandsom multicollineariteit te voorkomen. Dit doe je door ze elk toe te voegen met-. Sla het model op in een objectsalesModel2. - Schat de variance inflation factors van het model opnieuw. Zou je de resultaten nu accepteren?
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Estimating the full model
salesModel1 <- lm(salesThisMon ~ . - ___,
data = salesData)
# Checking variance inflation factors
vif(___)
# Estimating new model by removing information on brand
salesModel2 <- lm(salesThisMon ~ . - ___,
data = ___)
# Checking variance inflation factors
___