Découvrir des prédicteurs corrélés
Des variables prédictives corrélées apportent une information redondante et peuvent nuire à l’ajustement du modèle. Lorsque deux variables sont fortement corrélées, leurs valeurs évoluent linéairement l’une avec l’autre et fournissent donc la même information à vos algorithmes de Machine Learning. Ce phénomène est appelé multicolinéarité.
Avant de commencer l’ajustement du modèle, il est important d’explorer votre jeu de données pour mettre en évidence ces relations et les traiter dans vos étapes de feature engineering.
Dans cet exercice, vous allez explorer le jeu de données telecom_training en créant une matrice de corrélation de toutes les variables prédictives numériques.
Les données telecom_training ont été chargées dans votre session.
Cet exercice fait partie du cours
Modéliser avec tidymodels en R
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
telecom_training %>%
# Select numeric columns
___(___) %>%
# Calculate correlation matrix
___