Doublons complets
On vous a informé qu’une mise à jour a été apportée au pipeline de données du service de vélos en libre-service pour le rendre plus efficace, mais qu’elle risque de générer davantage de doublons. Pour continuer à utiliser les mêmes scripts pour vos analyses hebdomadaires des statistiques de trajets, vous devez d’abord vous assurer que tous les doublons du jeu de données sont supprimés.
Lorsque plusieurs lignes d’un data frame partagent les mêmes valeurs pour toutes les colonnes, ce sont des doublons complets. Supprimer ces doublons est crucial, car la répétition des mêmes valeurs peut fausser des statistiques de synthèse comme la moyenne et la médiane. Chaque trajet, ainsi que son ride_id, doit être unique.
dplyr est chargé et bike_share_rides est disponible.
Cet exercice fait partie du cours
Nettoyer des données avec R
Instructions
- Obtenez le nombre total de doublons complets dans
bike_share_rides. - Supprimez tous les doublons complets de
bike_share_rideset enregistrez le nouveau data frame sous le nombike_share_rides_unique. - Obtenez le nombre total de doublons complets dans le nouveau data frame
bike_share_rides_unique.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Count the number of full duplicates
___
# Remove duplicates
bike_share_rides_unique <- ___
# Count the full duplicates in bike_share_rides_unique
___