Créer un filtre basé sur le ratio de valeurs manquantes
Le data frame house_sales_df contient une variable cible price et divers prédicteurs qui décrivent chaque maison et déterminent son prix de vente. Plusieurs variables comportent un nombre variable de valeurs manquantes. Si le ratio de valeurs manquantes est trop élevé, la variable sera peu informative pour prédire le prix de la maison. Ces variables peuvent être supprimées. Dans cet exercice, vous allez calculer le ratio de valeurs manquantes pour chaque colonne. Cela vous aidera à réfléchir à un seuil approprié pour chaque colonne.
Le package tidyverse a été chargé pour vous.
Cet exercice fait partie du cours
Réduction de dimension en R
Instructions
- Stockez le nombre total de lignes de
house_sales_dfdansn. - Calculez les ratios de valeurs manquantes pour chaque colonne de
house_sales_dfet stockez-les dansmissing_vals_df.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Calculate total rows
___ <- ___(___)
# Calculate missing value ratios
___ <- ___ %>%
___(___(___(), ~ ___(___(.)))) %>%
pivot_longer(everything(), names_to = "feature", values_to = "num_missing_values") %>%
mutate(missing_val_ratio = ___ / ___)
# Display missing value ratios
missing_vals_df