CommencerCommencer gratuitement

Recherche de doublons

Une nouvelle mise à jour du pipeline de données alimentant ride_sharing a ajouté la colonne ride_id, qui représente un identifiant unique pour chaque trajet.

La mise à jour a toutefois coïncidé avec une réduction significative de la durée moyenne des trajets et des dates de naissance irrégulières des utilisateurs, définies dans le futur. Plus important encore, le nombre de trajets effectués a augmenté de 20 % du jour au lendemain, ce qui laisse supposer qu'il pourrait y avoir des doublons complets et incomplets dans le DataFrame ride_sharing.

Dans cet exercice, vous allez vérifier cette hypothèse en identifiant ces doublons. Un échantillon de ride_sharing est à votre disposition, ainsi que tous les packages avec lesquels vous avez travaillé jusqu'à présent.

Cet exercice fait partie du cours

Nettoyage des données en Python

Afficher le cours

Instructions

  • Veuillez identifier les lignes en double de ride_id dans le DataFrame ride_sharing tout en définissant keep sur False.
  • Sous-ensemble ride_sharing sur duplicates, triez par ride_id et attribuez les résultats à duplicated_rides.
  • Affichez les colonnes ride_id, duration et user_birth_year du site duplicated_rides dans cet ordre.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Find duplicates
duplicates = ____.____(____, ____)

# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')

# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])
Modifier et exécuter le code