Caractéristiques à information mutuelle
Le data frame credit_df contient plusieurs variables continues. Lorsque deux variables continues sont corrélées, elles véhiculent la même information — on parle alors d’information mutuelle. Des variables fortement corrélées ne sont pas seulement redondantes ; elles peuvent aussi poser des problèmes lors de la modélisation. Par exemple, en régression, des variables fortement corrélées (c’est-à-dire une multicolinéarité) peuvent conduire à des résultats aberrants. Pour évaluer l’information mutuelle, vous allez créer une matrice de corrélation afin d’identifier les variables avec information mutuelle.
Les packages tidyverse et corrr ont été chargés pour vous.
Cet exercice fait partie du cours
Réduction de dimension en R
Instructions
- Utilisez
correlate()etrplot()pour créer un graphique de corrélation des variables numériques decredit_df.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a correlation plot
___ %>%
select(where(is.numeric)) %>%
___() %>%
shave() %>%
___(print_cor = TRUE) +
theme(axis.text.x = element_text(angle = 90, hjust = 1))