CommencerCommencer gratuitement

Traitement des doublons

Dans le dernier exercice, vous avez pu constater que la nouvelle mise à jour intégrée à ride_sharing contient un bug générant des lignes dupliquées complètes et incomplètes pour certaines valeurs de la colonne ride_id, avec des valeurs parfois discordantes pour les colonnes user_birth_year et duration.

Dans cet exercice, vous traiterez ces lignes dupliquées en supprimant d'abord les doublons complets, puis en fusionnant les lignes dupliquées incomplètes en une seule, tout en conservant la valeur duration moyenne et le user_birth_year minimum pour chaque ensemble de lignes dupliquées incomplètes.

Cet exercice fait partie du cours

Nettoyage des données en Python

Afficher le cours

Instructions

  • Supprimez les doublons complets dans ride_sharing et enregistrez les résultats dans ride_dup.
  • Créez le dictionnaire statistics qui contient l'agrégation minimalepour user_birth_year et l'agrégation moyenne pour duration.
  • Supprimez les doublons incomplets en les regroupant par ride_id et en appliquant l'agrégation dans statistics.
  • Recherchez à nouveau les doublons et exécutez l'instruction assert pour vérifier la suppression des doublons.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Drop complete duplicates from ride_sharing
ride_dup = ____.____()

# Create statistics dictionary for aggregation function
statistics = {'user_birth_year': ____, 'duration': ____}

# Group by ride_id and compute new statistics
ride_unique = ride_dup.____('____').____(____).reset_index()

# Find duplicated values again
duplicates = ride_unique.____(subset = 'ride_id', keep = False)
duplicated_rides = ride_unique[duplicates == True]

# Assert duplicates are processed
assert duplicated_rides.shape[0] == 0
Modifier et exécuter le code