Traitement des doublons

Dans le dernier exercice, vous avez pu constater que la nouvelle mise à jour intégrée à ride_sharing contient un bug générant des lignes dupliquées complètes et incomplètes pour certaines valeurs de la colonne ride_id, avec des valeurs parfois discordantes pour les colonnes user_birth_year et duration.

Dans cet exercice, vous traiterez ces lignes dupliquées en supprimant d'abord les doublons complets, puis en fusionnant les lignes dupliquées incomplètes en une seule, tout en conservant la valeur duration moyenne et le user_birth_year minimum pour chaque ensemble de lignes dupliquées incomplètes.

Cet exercice fait partie du cours

<cours>Nettoyage des données en Python</cours>

Instructions de l’exercice

Supprimez les doublons complets dans ride_sharing et enregistrez les résultats dans ride_dup.
Créez le dictionnaire statistics qui contient l'agrégation minimalepour user_birth_year et l'agrégation moyenne pour duration.
Supprimez les doublons incomplets en les regroupant par ride_id et en appliquant l'agrégation dans statistics.
Recherchez à nouveau les doublons et exécutez l'instruction assert pour vérifier la suppression des doublons.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Drop complete duplicates from ride_sharing
ride_dup = ____.____()

# Create statistics dictionary for aggregation function
statistics = {'user_birth_year': ____, 'duration': ____}

# Group by ride_id and compute new statistics
ride_unique = ride_dup.____('____').____(____).reset_index()

# Find duplicated values again
duplicates = ride_unique.____(subset = 'ride_id', keep = False)
duplicated_rides = ride_unique[duplicates == True]

# Assert duplicates are processed
assert duplicated_rides.shape[0] == 0

Modifier et exécuter le code

Cet exercice fait partie du cours

<cours>Nettoyage des données en Python</cours>

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Dans ce chapitre, vous apprendrez comment surmonter certains des problèmes les plus courants liés aux données erronées. Vous convertirez les types de données, appliquerez des contraintes de plage pour supprimer les points de données futurs et supprimerez les points de données en double afin d'éviter les doubles comptages.

Exercise 1: Contraintes relatives aux types de données Exercise 2: Types de données courants Exercise 3: Données numériques ou…?Exercise 4: Additionner des chaînes de caractères et concaténer des nombres Exercise 5: Contraintes relatives à la plage de données Exercise 6: Contraintes relatives à la taille des pneus Exercise 7: Retour vers le futur Exercise 8: Contraintes d'unicité Exercise 9: Quelle est la taille de votre sous-ensemble ?Exercise 10: Recherche de doublons Exercise 11: Traitement des doublons

Exercice actuel

Les données catégorielles et textuelles peuvent souvent constituer les parties les plus complexes d'un ensemble de données en raison de leur nature non structurée. Dans ce chapitre, vous apprendrez à corriger les incohérences en matière d'espaces et de majuscules dans les libellés de catégories, à regrouper plusieurs catégories en une seule et à reformater les chaînes de caractères pour plus de cohérence.

Exercise 1: Contraintes d'adhésion Exercise 2: Réservé aux membres Exercise 3: Trouver la cohérence Exercise 4: Variables catégorielles Exercise 5: Catégories d'erreurs Exercise 6: Catégories incohérentes Exercise 7: Remaniement des catégories Exercise 8: Nettoyage des données textuelles Exercise 9: Suppression des titres et prise des noms Exercise 10: Rester dans la description

Dans ce chapitre, vous aborderez des problèmes plus avancés liés au nettoyage des données, tels que la vérification que tous les poids sont exprimés en kilogrammes plutôt qu'en livres. Vous acquerrez également des compétences inestimables qui vous aideront à vérifier que les valeurs ont été ajoutées correctement et que les valeurs manquantes n'ont pas d'impact négatif sur vos analyses.

Exercise 1: Uniformité Exercise 2: Dates imprécises Exercise 3: Monnaies uniformes Exercise 4: Dates uniformes Exercise 5: Validation croisée Exercise 6: Validation croisée ou non ?Exercise 7: Qu’en est-il de l'intégrité de nos données ?Exercise 8: Exhaustivité Exercise 9: Les valeurs sont-elles manquantes de manière aléatoire ?Exercise 10: Investisseurs manquants Exercise 11: Une question d’argent

Le couplage de données est une technique efficace utilisée pour fusionner plusieurs ensembles de données, notamment lorsque les valeurs contiennent des fautes de frappe ou des orthographes différentes. Dans ce chapitre, vous apprendrez à relier des enregistrements en calculant la similarité entre des chaînes de caractères. Vous utiliserez ensuite vos nouvelles compétences pour fusionner deux ensembles de données d'avis sur des restaurants en un seul ensemble de données propre.

Exercise 1: Comparaison de chaînes de caractères Exercise 2: Distance minimale d'édition Exercise 3: Le seuil Exercise 4: Remaniement des catégories II Exercise 5: Génération de paires Exercise 6: Jointure ou non ?Exercise 7: Paires de restaurants Exercise 8: Restaurants similaires Exercise 9: Lier des DataFrames Exercise 10: Obtenir le bon indice Exercise 11: Relier les données !Exercise 12: Félicitations !