Recherche de doublons
Une nouvelle mise à jour du pipeline de données alimentant ride_sharing
a ajouté la colonne « ride_id
», qui représente un identifiant unique pour chaque trajet.
La mise à jour a toutefois coïncidé avec une réduction considérable de la durée moyenne des trajets et la définition de dates de naissance irrégulières pour les utilisateurs, situées dans le futur. Plus important encore, le nombre de trajets effectués a augmenté de 20 % du jour au lendemain, ce qui laisse penser qu'il pourrait y avoir des doublons complets et incomplets dans le DataFrame ride_sharing
.
Dans cet exercice, vous allez confirmer cette hypothèse en identifiant les doublons. Un exemple de l'ride_sharing
est disponible dans votre environnement, ainsi que tous les paquets avec lesquels vous avez travaillé jusqu'à présent.
Cet exercice fait partie du cours
Nettoyage des données dans Python
Instructions
- Recherchez les lignes en double de l'
ride_id
dans le DataFrameride_sharing
tout en définissant l'keep
surFalse
. ride_sharing
ez le sous-ensemble surduplicates
, triez parride_id
et affectez les résultats àduplicated_rides
.- Veuillez imprimer les colonnes «
ride_id
», «duration
» et «user_birth_year
» de la pageduplicated_rides
dans cet ordre.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Find duplicates
duplicates = ____.____(____, ____)
# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')
# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])