CommencerCommencer gratuitement

Corriger les incohérences

Maintenant que vous avez identifié des incohérences d’espaces dans dest_size et des incohérences de capitalisation dans cleanliness, vous allez utiliser les nouveaux outils à votre disposition pour corriger les valeurs incohérentes dans sfo_survey au lieu de supprimer complètement ces points de données, ce qui pourrait biaiser votre jeu de données si plus de 5 % des observations devaient être retirées.

dplyr et stringr sont chargés et sfo_survey est disponible.

Cet exercice fait partie du cours

Nettoyer des données avec R

Afficher le cours

Instructions

  • Ajoutez une colonne à sfo_survey appelée dest_size_trimmed qui contient les valeurs de la colonne dest_size avec tous les espaces en début et en fin supprimés.
  • Ajoutez une autre colonne appelée cleanliness_lower qui contient les valeurs de la colonne cleanliness converties entièrement en minuscules.
  • Comptez le nombre d’occurrences de chaque catégorie dans dest_size_trimmed.
  • Comptez le nombre d’occurrences de chaque catégorie dans cleanliness_lower.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Add new columns to sfo_survey
sfo_survey <- sfo_survey %>%
  # dest_size_trimmed: dest_size without whitespace
  mutate(dest_size_trimmed = ___,
         # cleanliness_lower: cleanliness converted to lowercase
         cleanliness_lower = ___)

# Count values of dest_size_trimmed
sfo_survey %>%
  ___

# Count values of cleanliness_lower
sfo_survey %>%
  ___
Modifier et exécuter le code