Créer une recette pour faible variance

Les packages tidymodels proposent une meilleure façon de filtrer les variables à variance nulle ou quasi nulle grâce aux fonctions step_zv() et step_nzv(). Ces étapes de recette identifient les variables à faible variance en examinant le nombre de valeurs uniques et le ratio de fréquence des valeurs les plus courantes dans chaque variable. Cette approche est plus robuste que le simple seuil de variance utilisé précédemment.

De plus, vous utiliserez l'étape de recette step_scale() pour normaliser la variance des variables. Rappelez-vous qu'il est toujours préférable de normaliser les données afin de rendre les variances comparables d'une variable à l'autre.

L'objet house_sales_df est à votre disposition. La variable cible est price. Les packages tidyverse et tidymodels ont également été chargés pour vous.

Cet exercice fait partie du cours

<cours>Réduction de dimension en R</cours>

Voir le cours

Instructions de l’exercice

Définissez une recette pour un filtre de faible variance et préparez-la avec house_sales_df.
Appliquez la recette à house_sales_df et stockez les données filtrées dans filtered_house_sales_df.
Affichez les variables filtrées par l'étape step_nzv() de la recette.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Prepare recipe
low_variance_recipe <- recipe(___ ~ ___, ___ = ___) %>% 
  step_zv(___) %>% 
  ___(___) %>% 
  ___(___) %>% 
  prep()

# Apply recipe
filtered_house_sales_df <- ___(___, new_data = ___)

# View list of features removed by the near-zero variance step 
tidy(___, number = ___)

Modifier et exécuter le code