Korrelierte Variablen
In dieser Übung untersuchst du den Datensatz im Hinblick auf korrelierte Variablen. Es ist wichtig, sie vor dem Einsatz eines binären Klassifikators zu entfernen – besonders bei der logistischen Regression. Wenn zwei oder mehr Variablen stark korreliert sind, solltest du alle bis auf eine entfernen.
Zuerst verwenden wir die Funktion corrplot() aus dem Paket corrplot, um die Korrelationen zu visualisieren.
Im Korrelationsdiagramm steht Blau für eine positive Korrelation und Rot für eine negative.
Eine dunklere Farbe zeigt eine stärkere Korrelation an.
Zum Schluss entfernst du die stark korrelierten Variablen aus dem Datensatz.
Diese Übung ist Teil des Kurses
Predictive Analytics mit vernetzten Daten in R
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Remove the Future column from studentnetworkdata
no_future <- ___
# Load the corrplot package
library(___)
# Generate the correlation matrix
M <- ___(no_future)
# Plot the correlations
___(M, method = "circle")