Créer une recette pour faible variance
Les packages tidymodels proposent une meilleure façon de filtrer les variables à variance nulle ou quasi nulle grâce aux fonctions step_zv() et step_nzv(). Ces étapes de recette identifient les variables à faible variance en examinant le nombre de valeurs uniques et le ratio de fréquence des valeurs les plus courantes dans chaque variable. Cette approche est plus robuste que le simple seuil de variance utilisé précédemment.
De plus, vous utiliserez l'étape de recette step_scale() pour normaliser la variance des variables. Rappelez-vous qu'il est toujours préférable de normaliser les données afin de rendre les variances comparables d'une variable à l'autre.
L'objet house_sales_df est à votre disposition. La variable cible est price. Les packages tidyverse et tidymodels ont également été chargés pour vous.
Cet exercice fait partie du cours
Réduction de dimension en R
Instructions
- Définissez une recette pour un filtre de faible variance et préparez-la avec
house_sales_df. - Appliquez la recette à
house_sales_dfet stockez les données filtrées dansfiltered_house_sales_df. - Affichez les variables filtrées par l'étape
step_nzv()de la recette.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Prepare recipe
low_variance_recipe <- recipe(___ ~ ___, ___ = ___) %>%
step_zv(___) %>%
___(___) %>%
___(___) %>%
prep()
# Apply recipe
filtered_house_sales_df <- ___(___, new_data = ___)
# View list of features removed by the near-zero variance step
tidy(___, number = ___)