Corriger les incohérences
Maintenant que vous avez identifié des incohérences d’espaces dans dest_size et des incohérences de capitalisation dans cleanliness, vous allez utiliser les nouveaux outils à votre disposition pour corriger les valeurs incohérentes dans sfo_survey au lieu de supprimer complètement ces points de données, ce qui pourrait biaiser votre jeu de données si plus de 5 % des observations devaient être retirées.
dplyr et stringr sont chargés et sfo_survey est disponible.
Cet exercice fait partie du cours
Nettoyer des données avec R
Instructions
- Ajoutez une colonne à
sfo_surveyappeléedest_size_trimmedqui contient les valeurs de la colonnedest_sizeavec tous les espaces en début et en fin supprimés. - Ajoutez une autre colonne appelée
cleanliness_lowerqui contient les valeurs de la colonnecleanlinessconverties entièrement en minuscules. - Comptez le nombre d’occurrences de chaque catégorie dans
dest_size_trimmed. - Comptez le nombre d’occurrences de chaque catégorie dans
cleanliness_lower.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Add new columns to sfo_survey
sfo_survey <- sfo_survey %>%
# dest_size_trimmed: dest_size without whitespace
mutate(dest_size_trimmed = ___,
# cleanliness_lower: cleanliness converted to lowercase
cleanliness_lower = ___)
# Count values of dest_size_trimmed
sfo_survey %>%
___
# Count values of cleanliness_lower
sfo_survey %>%
___