CommencerCommencer gratuitement

Découvrir des prédicteurs corrélés

Des variables prédictives corrélées apportent une information redondante et peuvent nuire à l’ajustement du modèle. Lorsque deux variables sont fortement corrélées, leurs valeurs évoluent linéairement l’une avec l’autre et fournissent donc la même information à vos algorithmes de Machine Learning. Ce phénomène est appelé multicolinéarité.

Avant de commencer l’ajustement du modèle, il est important d’explorer votre jeu de données pour mettre en évidence ces relations et les traiter dans vos étapes de feature engineering.

Dans cet exercice, vous allez explorer le jeu de données telecom_training en créant une matrice de corrélation de toutes les variables prédictives numériques.

Les données telecom_training ont été chargées dans votre session.

Cet exercice fait partie du cours

Modéliser avec tidymodels en R

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

telecom_training %>% 
  # Select numeric columns
  ___(___) %>% 
  # Calculate correlation matrix
  ___
Modifier et exécuter le code