1. Öğren
  2. /
  3. Kurs
  4. /
  5. Nettoyage des données en Python

Connected

Egzersiz

Repérer les doublons

Une nouvelle mise à jour du pipeline de données alimentant ride_sharing a ajouté la colonne ride_id, qui représente un identifiant unique pour chaque trajet.

Cependant, cette mise à jour a coïncidé avec une baisse radicale de la durée moyenne des trajets et des années de naissance d’utilisateurs fixées dans le futur. Plus important encore, le nombre de trajets effectués a augmenté de 20 % du jour au lendemain, ce qui vous porte à croire qu’il pourrait y avoir des doublons complets et incomplets dans le DataFrame ride_sharing.

Dans cet exercice, vous allez confirmer ce soupçon en trouvant ces doublons. Un échantillon de ride_sharing est disponible dans votre environnement, ainsi que tous les modules avec lesquels vous avez travaillé jusqu’ici.

Talimatlar

100 XP
  • Repérez les lignes en double de ride_id dans le DataFrame ride_sharing en définissant keep à False.
  • Filtrez ride_sharing avec duplicates, triez par ride_id et assignez le résultat à duplicated_rides.
  • Affichez, dans cet ordre, les colonnes ride_id, duration et user_birth_year de duplicated_rides.