Identifier les variables fortement corrélées
À partir des données house_sales_df, vous allez vous entraîner à repérer les variables présentant une forte corrélation. Une forte corrélation entre variables indique des informations redondantes et peut poser des problèmes de modélisation, comme la multicolinéarité dans les modèles de régression. Vous allez déterminer lesquelles de ces variables fortement corrélées supprimer. Une matrice de corrélation vous aidera à identifier ces variables.
Les packages tidyverse et corrr ont été chargés pour vous.
Cet exercice fait partie du cours
Réduction de dimension en R
Instructions
- Créez un graphique de corrélation avec les coefficients de corrélation affichés sur le graphique.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a correlation plot of the house sales
house_sales_df %>%
___() %>%
___() %>%
___(print_cor = ___) +
theme(axis.text.x = element_text(angle = 90, hjust = 1))