Repérer les doublons

Une nouvelle mise à jour du pipeline de données alimentant ride_sharing a ajouté la colonne ride_id, qui représente un identifiant unique pour chaque trajet.

Cependant, cette mise à jour a coïncidé avec une baisse radicale de la durée moyenne des trajets et des années de naissance d’utilisateurs fixées dans le futur. Plus important encore, le nombre de trajets effectués a augmenté de 20 % du jour au lendemain, ce qui vous porte à croire qu’il pourrait y avoir des doublons complets et incomplets dans le DataFrame ride_sharing.

Dans cet exercice, vous allez confirmer ce soupçon en trouvant ces doublons. Un échantillon de ride_sharing est disponible dans votre environnement, ainsi que tous les modules avec lesquels vous avez travaillé jusqu’ici.

Repérez les lignes en double de ride_id dans le DataFrame ride_sharing en définissant keep à False.
Filtrez ride_sharing avec duplicates, triez par ride_id et assignez le résultat à duplicated_rides.
Affichez, dans cet ordre, les colonnes ride_id, duration et user_birth_year de duplicated_rides.

Exercice

Repérer les doublons

Instructions

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Exercice

Instructions

Exercice