CommencerCommencer gratuitement

Doublons complets

On vous a informé qu’une mise à jour a été apportée au pipeline de données du service de vélos en libre-service pour le rendre plus efficace, mais qu’elle risque de générer davantage de doublons. Pour continuer à utiliser les mêmes scripts pour vos analyses hebdomadaires des statistiques de trajets, vous devez d’abord vous assurer que tous les doublons du jeu de données sont supprimés.

Lorsque plusieurs lignes d’un data frame partagent les mêmes valeurs pour toutes les colonnes, ce sont des doublons complets. Supprimer ces doublons est crucial, car la répétition des mêmes valeurs peut fausser des statistiques de synthèse comme la moyenne et la médiane. Chaque trajet, ainsi que son ride_id, doit être unique.

dplyr est chargé et bike_share_rides est disponible.

Cet exercice fait partie du cours

Nettoyer des données avec R

Afficher le cours

Instructions

  • Obtenez le nombre total de doublons complets dans bike_share_rides.
  • Supprimez tous les doublons complets de bike_share_rides et enregistrez le nouveau data frame sous le nom bike_share_rides_unique.
  • Obtenez le nombre total de doublons complets dans le nouveau data frame bike_share_rides_unique.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Count the number of full duplicates
___

# Remove duplicates
bike_share_rides_unique <- ___

# Count the full duplicates in bike_share_rides_unique
___
Modifier et exécuter le code