CommencerCommencer gratuitement

Recherche de doublons

Une nouvelle mise à jour du pipeline de données alimentant ride_sharing a ajouté la colonne « ride_id », qui représente un identifiant unique pour chaque trajet.

La mise à jour a toutefois coïncidé avec une réduction considérable de la durée moyenne des trajets et la définition de dates de naissance irrégulières pour les utilisateurs, situées dans le futur. Plus important encore, le nombre de trajets effectués a augmenté de 20 % du jour au lendemain, ce qui laisse penser qu'il pourrait y avoir des doublons complets et incomplets dans le DataFrame ride_sharing.

Dans cet exercice, vous allez confirmer cette hypothèse en identifiant les doublons. Un exemple de l'ride_sharing est disponible dans votre environnement, ainsi que tous les paquets avec lesquels vous avez travaillé jusqu'à présent.

Cet exercice fait partie du cours

Nettoyage des données dans Python

Afficher le cours

Instructions

  • Recherchez les lignes en double de l'ride_id dans le DataFrame ride_sharing tout en définissant l'keep sur False.
  • ride_sharing ez le sous-ensemble sur duplicates, triez par ride_id et affectez les résultats à duplicated_rides.
  • Veuillez imprimer les colonnes « ride_id », « duration » et « user_birth_year » de la page duplicated_rides dans cet ordre.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Find duplicates
duplicates = ____.____(____, ____)

# Sort your duplicated rides
duplicated_rides = ride_sharing[____].____('____')

# Print relevant columns of duplicated_rides
print(duplicated_rides[['____','____','____']])
Modifier et exécuter le code