Lineare Regression mit Hauptkomponenten
Das Objekt newsData enthält jetzt eine zusätzliche Variable: logShares. Die Anzahl der Shares zeigt, wie oft die Artikel geteilt wurden. Diese Verteilung wäre allerdings stark schief, daher arbeitest du mit dem Logarithmus der Anzahl der Shares. Wende an, was du gerade gelernt hast, und sage die Log-Shares voraus!
Diese Übung ist Teil des Kurses
Machine Learning für Marketing-Analytics in R
Anleitung zur Übung
- Berechne ein Modell, das die Log-Shares mit allen anderen Variablen vorhersagt. Speichere es als
mod1. - Erstelle ein neues Dataframe
dataNewsComponentsmit den Log-Shares und den Werten auf den ersten 6 Komponenten. Das ObjektpcaNewsenthält wieder die PCA-Ergebnisse. - Berechne ein zweites Modell (
mod2), das die Log-Shares nur mit den 6 Komponenten vorhersagt. - Vergleiche das adjustierte R-Quadrat der Modelle. Wie hat sich der Wert verändert, wenn du nur die Hauptkomponenten verwendest? Wie gut ist dein Modell?
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Predict log shares with all original variables
mod1 <- lm(logShares ~ ., data = ___)
# Create dataframe with log shares and first 6 components
dataNewsComponents <- cbind(logShares = newsData[, "logShares"],
___$x[, 1:__]) %>%
as.data.frame()
# Predict log shares with first six components
mod2 <- lm(___ ~ ., data = ___)
# Print adjusted R squared for both models
___(mod1)$adj.r.squared
summary(___)$___