Variables corrélées
Dans cet exercice, vous allez examiner le jeu de données sous l’angle des variables corrélées. Il est important de les supprimer avant d’appliquer un classifieur binaire, en particulier une régression logistique. Lorsque deux variables ou plus sont fortement corrélées, vous devez en conserver une seule et supprimer les autres.
Nous allons d’abord utiliser la fonction corrplot() du package corrplot pour visualiser les corrélations.
Dans le graphique des corrélations, le bleu représente une corrélation positive et le rouge une corrélation négative.
Une couleur plus foncée indique une corrélation plus forte.
Enfin, vous supprimerez du jeu de données les variables fortement corrélées.
Cet exercice fait partie du cours
Analytique prédictive avec des données en réseau sous R
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Remove the Future column from studentnetworkdata
no_future <- ___
# Load the corrplot package
library(___)
# Generate the correlation matrix
M <- ___(no_future)
# Plot the correlations
___(M, method = "circle")