Corriger les incohérences

Maintenant que vous avez identifié des incohérences d’espaces dans dest_size et des incohérences de capitalisation dans cleanliness, vous allez utiliser les nouveaux outils à votre disposition pour corriger les valeurs incohérentes dans sfo_survey au lieu de supprimer complètement ces points de données, ce qui pourrait biaiser votre jeu de données si plus de 5 % des observations devaient être retirées.

dplyr et stringr sont chargés et sfo_survey est disponible.

Cet exercice fait partie du cours

Nettoyer des données avec R

Afficher le cours

Instructions

Ajoutez une colonne à sfo_survey appelée dest_size_trimmed qui contient les valeurs de la colonne dest_size avec tous les espaces en début et en fin supprimés.
Ajoutez une autre colonne appelée cleanliness_lower qui contient les valeurs de la colonne cleanliness converties entièrement en minuscules.
Comptez le nombre d’occurrences de chaque catégorie dans dest_size_trimmed.
Comptez le nombre d’occurrences de chaque catégorie dans cleanliness_lower.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Add new columns to sfo_survey
sfo_survey <- sfo_survey %>%
  # dest_size_trimmed: dest_size without whitespace
  mutate(dest_size_trimmed = ___,
         # cleanliness_lower: cleanliness converted to lowercase
         cleanliness_lower = ___)

# Count values of dest_size_trimmed
sfo_survey %>%
  ___

# Count values of cleanliness_lower
sfo_survey %>%
  ___

Modifier et exécuter le code

Cet exercice fait partie du cours

Nettoyer des données avec R

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Dans ce chapitre, vous allez apprendre à résoudre certains des problèmes les plus courants de données imparfaites. Vous convertirez des types de données, appliquerez des contraintes de plage pour exclure des points futurs et supprimerez les doublons afin d’éviter les doubles comptages.

Exercise 1: Contraintes de type de données Exercise 2: Types de données courants Exercise 3: Convertir les types de données Exercise 4: Nettoyer des chaînes de caractères Exercise 5: Contraintes de plage Exercise 6: Contraintes sur la durée des trajets Exercise 7: Retour vers le futur Exercise 8: Contraintes d’unicité Exercise 9: Doublons complets Exercise 10: Supprimer les doublons partiels Exercise 11: Agrégation des doublons partiels

Les données catégorielles et textuelles sont souvent parmi les plus désordonnées d’un jeu de données en raison de leur nature non structurée. Dans ce chapitre, vous apprendrez à corriger les incohérences d’espacement et de capitalisation dans les libellés de catégories, à regrouper plusieurs catégories en une seule et à reformater des chaînes pour assurer la cohérence.

Exercise 1: Vérifier l’appartenance Exercise 2: Réservé aux membres Exercise 3: Pas membre Exercise 4: Problèmes avec les données catégorielles Exercise 5: Identifier les incohérences Exercise 6: Corriger les incohérences

Exercice en cours

Exercise 7: Fusionner des catégories Exercise 8: Nettoyer des données textuelles Exercise 9: Détecter des données textuelles incohérentes Exercise 10: Remplacer et supprimer Exercise 11: Numéros de téléphone invalides

Dans ce chapitre, vous vous attaquerez à des problèmes de nettoyage plus avancés, comme garantir que les poids sont tous exprimés en kilogrammes et non en livres. Vous développerez également des compétences précieuses pour vérifier que les valeurs ont été saisies correctement et que les valeurs manquantes n’impactent pas négativement vos analyses.

Exercise 1: Uniformité Exercise 2: Uniformité des dates Exercise 3: Uniformité des devises Exercise 4: Validation interchamps Exercise 5: Validation des totaux Exercise 6: Valider l’âge Exercise 7: Exhaustivité Exercise 8: Types de données manquantes Exercise 9: Visualiser les données manquantes Exercise 10: Traiter les données manquantes

Le record linkage est une technique puissante pour fusionner plusieurs jeux de données lorsque les valeurs comportent des fautes ou des variantes d’orthographe. Dans ce chapitre, vous apprendrez à relier des enregistrements en calculant la similarité entre des chaînes ; vous mettrez ensuite en pratique vos nouvelles compétences pour réunir deux jeux de données d’avis de restaurants en un jeu maître propre.

Exercise 1: Comparer des chaînes Exercise 2: Calculer une distance Exercise 3: Petite distance, petite différence Exercise 4: Corriger les fautes de frappe avec la distance de chaînes Exercise 5: Générer et comparer des paires Exercise 6: Lier ou joindre ?Exercise 7: Blocage par paires Exercise 8: Comparer des paires Exercise 9: Évaluation et liaison Exercise 10: D’abord scorer puis sélectionner, ou l’inverse ?Exercise 11: Mettre le tout en pratique Exercise 12: Félicitations !