CommencerCommencer gratuitement

Caractéristiques à information mutuelle

Le data frame credit_df contient plusieurs variables continues. Lorsque deux variables continues sont corrélées, elles véhiculent la même information — on parle alors d’information mutuelle. Des variables fortement corrélées ne sont pas seulement redondantes ; elles peuvent aussi poser des problèmes lors de la modélisation. Par exemple, en régression, des variables fortement corrélées (c’est-à-dire une multicolinéarité) peuvent conduire à des résultats aberrants. Pour évaluer l’information mutuelle, vous allez créer une matrice de corrélation afin d’identifier les variables avec information mutuelle.

Les packages tidyverse et corrr ont été chargés pour vous.

Cet exercice fait partie du cours

Réduction de dimension en R

Afficher le cours

Instructions

  • Utilisez correlate() et rplot() pour créer un graphique de corrélation des variables numériques de credit_df.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create a correlation plot
___ %>% 
  select(where(is.numeric)) %>% 
  ___() %>% 
  shave() %>% 
  ___(print_cor = TRUE) +
  theme(axis.text.x = element_text(angle = 90, hjust = 1))
Modifier et exécuter le code