Gecorreleerde variabelen
In deze oefening bekijk je de gegevensset met oog voor gecorreleerde variabelen. Het is belangrijk om die te verwijderen voordat je een binaire classifier toepast, zeker bij logistische regressie. Als twee of meer variabelen sterk gecorreleerd zijn, verwijder je ze allemaal behalve één.
We gebruiken eerst de functie corrplot() uit het pakket corrplot om de correlaties te visualiseren.
In de correlatieplot staat blauw voor een positieve correlatie en rood voor een negatieve correlatie.
Een donkerdere kleur duidt op een hogere correlatie.
Tot slot verwijder je de sterk gecorreleerde variabelen uit de gegevensset.
Deze oefening maakt deel uit van de cursus
Predictive Analytics met netwerkgdata in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Remove the Future column from studentnetworkdata
no_future <- ___
# Load the corrplot package
library(___)
# Generate the correlation matrix
M <- ___(no_future)
# Plot the correlations
___(M, method = "circle")