Lineare Regression mit Hauptkomponenten

Das Objekt newsData enthält jetzt eine zusätzliche Variable: logShares. Die Anzahl der Shares zeigt, wie oft die Artikel geteilt wurden. Diese Verteilung wäre allerdings stark schief, daher arbeitest du mit dem Logarithmus der Anzahl der Shares. Wende an, was du gerade gelernt hast, und sage die Log-Shares voraus!

Diese Übung ist Teil des Kurses

Machine Learning für Marketing-Analytics in R

Kurs anzeigen

Anleitung zur Übung

Berechne ein Modell, das die Log-Shares mit allen anderen Variablen vorhersagt. Speichere es als mod1.
Erstelle ein neues Dataframe dataNewsComponents mit den Log-Shares und den Werten auf den ersten 6 Komponenten. Das Objekt pcaNews enthält wieder die PCA-Ergebnisse.
Berechne ein zweites Modell (mod2), das die Log-Shares nur mit den 6 Komponenten vorhersagt.
Vergleiche das adjustierte R-Quadrat der Modelle. Wie hat sich der Wert verändert, wenn du nur die Hauptkomponenten verwendest? Wie gut ist dein Modell?

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Predict log shares with all original variables
mod1 <- lm(logShares ~ ., data = ___)

# Create dataframe with log shares and first 6 components
dataNewsComponents <- cbind(logShares = newsData[, "logShares"],
                            ___$x[, 1:__]) %>%
  as.data.frame()

# Predict log shares with first six components
mod2 <- lm(___ ~ ., data = ___)

# Print adjusted R squared for both models
___(mod1)$adj.r.squared
summary(___)$___

Code bearbeiten und ausführen