Aan de slagGa gratis aan de slag

Gecorreleerde variabelen

In deze oefening bekijk je de gegevensset met oog voor gecorreleerde variabelen. Het is belangrijk om die te verwijderen voordat je een binaire classifier toepast, zeker bij logistische regressie. Als twee of meer variabelen sterk gecorreleerd zijn, verwijder je ze allemaal behalve één.

We gebruiken eerst de functie corrplot() uit het pakket corrplot om de correlaties te visualiseren. In de correlatieplot staat blauw voor een positieve correlatie en rood voor een negatieve correlatie. Een donkerdere kleur duidt op een hogere correlatie. Tot slot verwijder je de sterk gecorreleerde variabelen uit de gegevensset.

Deze oefening maakt deel uit van de cursus

Predictive Analytics met netwerkgdata in R

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Remove the Future column from studentnetworkdata 
no_future <- ___

# Load the corrplot package
library(___)

# Generate the correlation matrix
M <- ___(no_future)

# Plot the correlations
___(M, method = "circle")
Code bewerken en uitvoeren