Multikollinearität vermeiden
Zurück zu unserem Verkaufsdatensatz salesData, der bereits im Workspace geladen ist. Zusätzlich ist das Paket rms geladen.
Lass uns eine multiple lineare Regression schätzen! Natürlich wollen wir alle Variablen im Datensatz nutzen.
Diese Übung ist Teil des Kurses
Machine Learning für Marketing-Analytics in R
Anleitung zur Übung
- Berechne ein Vollmodell namens
salesModel1mit allen Variablen außerid, um die Verkäufe in diesem Monat zu erklären. Fülle dazu die richtigen Variablennamen in die folgende Dummy-Syntax ein:response ~ . - excluded_variable. Das kann man lesen als: "responsewird durch alle Variablen außerexcluded_variablemodelliert." - Schätze die Variance Inflation Factors mit der Funktion
vif()aus dem Paketrms. - Zusätzlich zum Ausschluss der Variable
identferne die VariablenpreferredBrandundnBrands, um Multikollinearität zu vermeiden. Hänge dazu jeweils-an. Speichere das Modell in einem Objekt namenssalesModel2. - Schätze die Variance Inflation Factors für das Modell erneut. Würdest du die Ergebnisse jetzt akzeptieren?
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Estimating the full model
salesModel1 <- lm(salesThisMon ~ . - ___,
data = salesData)
# Checking variance inflation factors
vif(___)
# Estimating new model by removing information on brand
salesModel2 <- lm(salesThisMon ~ . - ___,
data = ___)
# Checking variance inflation factors
___