LoslegenKostenlos starten

Korrelierte Variablen

In dieser Übung untersuchst du den Datensatz im Hinblick auf korrelierte Variablen. Es ist wichtig, sie vor dem Einsatz eines binären Klassifikators zu entfernen – besonders bei der logistischen Regression. Wenn zwei oder mehr Variablen stark korreliert sind, solltest du alle bis auf eine entfernen.

Zuerst verwenden wir die Funktion corrplot() aus dem Paket corrplot, um die Korrelationen zu visualisieren. Im Korrelationsdiagramm steht Blau für eine positive Korrelation und Rot für eine negative. Eine dunklere Farbe zeigt eine stärkere Korrelation an. Zum Schluss entfernst du die stark korrelierten Variablen aus dem Datensatz.

Diese Übung ist Teil des Kurses

<Kurs>Predictive Analytics mit vernetzten Daten in R</Kurs>
Kurs ansehen

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Remove the Future column from studentnetworkdata 
no_future <- ___

# Load the corrplot package
library(___)

# Generate the correlation matrix
M <- ___(no_future)

# Plot the correlations
___(M, method = "circle")
Code bearbeiten und ausführen