Agrégation des doublons partiels

Une autre façon de gérer les doublons partiels consiste à calculer une statistique récapitulative des valeurs qui diffèrent entre doublons partiels, comme la moyenne, la médiane, le maximum ou le minimum. C’est utile lorsque vous ne savez pas exactement comment vos données ont été collectées et que vous souhaitez une moyenne, ou si, selon votre connaissance du domaine, vous préférez une estimation un peu trop élevée plutôt que trop basse (et inversement).

dplyr est chargé et bike_share_rides est disponible.

Cet exercice fait partie du cours

<cours>Nettoyer des données avec R</cours>

Instructions de l’exercice

Regroupez bike_share_rides par ride_id et date.
Ajoutez une colonne appelée duration_min_avg qui contient la durée moyenne du trajet pour le ride_id et la date de la ligne.
Supprimez les doublons sur la base de ride_id et date, tout en conservant toutes les colonnes du tableau de données.
Supprimez la colonne duration_min.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

bike_share_rides %>%
  # Group by ride_id and date
  ___ %>%
  # Add duration_min_avg column
  mutate(duration_min_avg = ___ ) %>%
  # Remove duplicates based on ride_id and date, keep all cols
  ___ %>%
  # Remove duration_min column
  ___(-___)

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Nettoyer des données avec R</cours>

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Dans ce chapitre, vous allez apprendre à résoudre certains des problèmes les plus courants de données imparfaites. Vous convertirez des types de données, appliquerez des contraintes de plage pour exclure des points futurs et supprimerez les doublons afin d’éviter les doubles comptages.

Exercise 1: Contraintes de type de données Exercise 2: Types de données courants Exercise 3: Convertir les types de données Exercise 4: Nettoyer des chaînes de caractères Exercise 5: Contraintes de plage Exercise 6: Contraintes sur la durée des trajets Exercise 7: Retour vers le futur Exercise 8: Contraintes d’unicité Exercise 9: Doublons complets Exercise 10: Supprimer les doublons partiels Exercise 11: Agrégation des doublons partiels

Exercice actuel

Les données catégorielles et textuelles sont souvent parmi les plus désordonnées d’un jeu de données en raison de leur nature non structurée. Dans ce chapitre, vous apprendrez à corriger les incohérences d’espacement et de capitalisation dans les libellés de catégories, à regrouper plusieurs catégories en une seule et à reformater des chaînes pour assurer la cohérence.

Exercise 1: Vérifier l’appartenance Exercise 2: Réservé aux membres Exercise 3: Pas membre Exercise 4: Problèmes avec les données catégorielles Exercise 5: Identifier les incohérences Exercise 6: Corriger les incohérences Exercise 7: Fusionner des catégories Exercise 8: Nettoyer des données textuelles Exercise 9: Détecter des données textuelles incohérentes Exercise 10: Remplacer et supprimer Exercise 11: Numéros de téléphone invalides

Dans ce chapitre, vous vous attaquerez à des problèmes de nettoyage plus avancés, comme garantir que les poids sont tous exprimés en kilogrammes et non en livres. Vous développerez également des compétences précieuses pour vérifier que les valeurs ont été saisies correctement et que les valeurs manquantes n’impactent pas négativement vos analyses.

Exercise 1: Uniformité Exercise 2: Uniformité des dates Exercise 3: Uniformité des devises Exercise 4: Validation interchamps Exercise 5: Validation des totaux Exercise 6: Valider l’âge Exercise 7: Exhaustivité Exercise 8: Types de données manquantes Exercise 9: Visualiser les données manquantes Exercise 10: Traiter les données manquantes

Le record linkage est une technique puissante pour fusionner plusieurs jeux de données lorsque les valeurs comportent des fautes ou des variantes d’orthographe. Dans ce chapitre, vous apprendrez à relier des enregistrements en calculant la similarité entre des chaînes ; vous mettrez ensuite en pratique vos nouvelles compétences pour réunir deux jeux de données d’avis de restaurants en un jeu maître propre.

Exercise 1: Comparer des chaînes Exercise 2: Calculer une distance Exercise 3: Petite distance, petite différence Exercise 4: Corriger les fautes de frappe avec la distance de chaînes Exercise 5: Générer et comparer des paires Exercise 6: Lier ou joindre ?Exercise 7: Blocage par paires Exercise 8: Comparer des paires Exercise 9: Évaluation et liaison Exercise 10: D’abord scorer puis sélectionner, ou l’inverse ?Exercise 11: Mettre le tout en pratique Exercise 12: Félicitations !