Créer une recette pour fortes corrélations
Une fois que vous avez identifié des variables fortement corrélées, plutôt que de les supprimer manuellement, vous pouvez utiliser l’étape de recette step_corr() dans tidymodels. step_corr() ne supprime pas toutes les variables corrélées avec d’autres. Elle cherche à en retirer le moins possible. Conceptuellement, comme vous l’avez vu dans le QCM, elle supprime la variable qui recoupe le plus d’information avec n’importe quelle combinaison d’autres variables. L’idée est que les autres variables contiennent la même information ; ainsi, l’information redondante de la variable retirée reste représentée par ces autres variables.
Les packages tidyverse et tidymodels ont été chargés pour vous.
Cet exercice fait partie du cours
Réduction de dimension en R
Instructions
- Créez une recette qui utilise
step_corr()avec un seuil de 0,7, en appliquant l’étape uniquement aux prédicteurs numériques. - Appliquez la recette à
house_sales_dfet stockez les données filtrées dansfiltered_house_sales_df. - Utilisez
tidy()pour identifier la ou les colonnes supprimées par le filtrestep_corr().
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create a recipe using step_corr to remove numeric predictors correlated > 0.7
corr_recipe <-
___(price ~ ., data = ___) %>%
___(___, ___ = ___) %>%
___(___)
# Apply the recipe to the data
___ <-
___ %>%
___(new_data = ___)
# Identify the features that were removed
___(___, ___ = ___)