Traitement des doublons
Dans le dernier exercice, vous avez pu constater que la nouvelle mise à jour intégrée à ride_sharing contient un bug générant des lignes dupliquées complètes et incomplètes pour certaines valeurs de la colonne ride_id, avec des valeurs parfois discordantes pour les colonnes user_birth_year et duration.
Dans cet exercice, vous traiterez ces lignes dupliquées en supprimant d'abord les doublons complets, puis en fusionnant les lignes dupliquées incomplètes en une seule, tout en conservant la valeur duration moyenne et le user_birth_year minimum pour chaque ensemble de lignes dupliquées incomplètes.
Cet exercice fait partie du cours
Nettoyage des données en Python
Instructions
- Supprimez les doublons complets dans
ride_sharinget enregistrez les résultats dansride_dup. - Créez le dictionnaire
statisticsqui contient l'agrégation minimalepouruser_birth_yearet l'agrégation moyenne pourduration. - Supprimez les doublons incomplets en les regroupant par
ride_idet en appliquant l'agrégation dansstatistics. - Recherchez à nouveau les doublons et exécutez l'instruction
assertpour vérifier la suppression des doublons.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Drop complete duplicates from ride_sharing
ride_dup = ____.____()
# Create statistics dictionary for aggregation function
statistics = {'user_birth_year': ____, 'duration': ____}
# Group by ride_id and compute new statistics
ride_unique = ride_dup.____('____').____(____).reset_index()
# Find duplicated values again
duplicates = ride_unique.____(subset = 'ride_id', keep = False)
duplicated_rides = ride_unique[duplicates == True]
# Assert duplicates are processed
assert duplicated_rides.shape[0] == 0