CommencerCommencer gratuitement

Créer un filtre basé sur le ratio de valeurs manquantes

Le data frame house_sales_df contient une variable cible price et divers prédicteurs qui décrivent chaque maison et déterminent son prix de vente. Plusieurs variables comportent un nombre variable de valeurs manquantes. Si le ratio de valeurs manquantes est trop élevé, la variable sera peu informative pour prédire le prix de la maison. Ces variables peuvent être supprimées. Dans cet exercice, vous allez calculer le ratio de valeurs manquantes pour chaque colonne. Cela vous aidera à réfléchir à un seuil approprié pour chaque colonne.

Le package tidyverse a été chargé pour vous.

Cet exercice fait partie du cours

Réduction de dimension en R

Afficher le cours

Instructions

  • Stockez le nombre total de lignes de house_sales_df dans n.
  • Calculez les ratios de valeurs manquantes pour chaque colonne de house_sales_df et stockez-les dans missing_vals_df.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Calculate total rows
___ <-  ___(___)

# Calculate missing value ratios
___ <- ___ %>% 
  ___(___(___(), ~ ___(___(.)))) %>% 
  pivot_longer(everything(), names_to = "feature", values_to = "num_missing_values") %>% 
  mutate(missing_val_ratio = ___ / ___)

# Display missing value ratios
missing_vals_df
Modifier et exécuter le code