LoslegenKostenlos loslegen

Multikollinearität vermeiden

Zurück zu unserem Verkaufsdatensatz salesData, der bereits im Workspace geladen ist. Zusätzlich ist das Paket rms geladen.

Lass uns eine multiple lineare Regression schätzen! Natürlich wollen wir alle Variablen im Datensatz nutzen.

Diese Übung ist Teil des Kurses

Machine Learning für Marketing-Analytics in R

Kurs anzeigen

Anleitung zur Übung

  • Berechne ein Vollmodell namens salesModel1 mit allen Variablen außer id, um die Verkäufe in diesem Monat zu erklären. Fülle dazu die richtigen Variablennamen in die folgende Dummy-Syntax ein: response ~ . - excluded_variable. Das kann man lesen als: "response wird durch alle Variablen außer excluded_variable modelliert."
  • Schätze die Variance Inflation Factors mit der Funktion vif() aus dem Paket rms.
  • Zusätzlich zum Ausschluss der Variable id entferne die Variablen preferredBrand und nBrands, um Multikollinearität zu vermeiden. Hänge dazu jeweils - an. Speichere das Modell in einem Objekt namens salesModel2.
  • Schätze die Variance Inflation Factors für das Modell erneut. Würdest du die Ergebnisse jetzt akzeptieren?

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Estimating the full model
salesModel1 <- lm(salesThisMon ~ . - ___, 
                 data = salesData)

# Checking variance inflation factors
vif(___)

# Estimating new model by removing information on brand
salesModel2 <- lm(salesThisMon ~ . - ___, 
                 data = ___)

# Checking variance inflation factors
___
Code bearbeiten und ausführen