Création de sous-ensembles et nettoyage des DataFrames PySpark
Après l'inspection des données, il est souvent nécessaire de nettoyer les données, ce qui implique principalement de créer des sous-ensembles, de renommer des colonnes, de supprimer des lignes dupliquées, etc. L'API DataFrame de PySpark fournit plusieurs opérateurs à ces fins. Dans cet exercice, votre tâche consiste à sous-diviser les colonnes « name », « sex » et « date of birth » du DataFrame people_df
, à supprimer tous les doublons dans les lignes de cet ensemble de données et à compter le nombre de lignes avant et après l'étape de suppression des doublons.
N'oubliez pas que vous disposez déjà d'une SparkSession spark
et d'un DataFrame people_df
dans votre espace de travail.
Cet exercice fait partie du cours
Principes fondamentaux des mégadonnées avec PySpark
Instructions
- Sélectionnez les colonnes « name », « sex » et « date of birth » de
people_df
et créez le DataFramepeople_df_sub
. - Affichez les 10 premières observations du DataFrame
people_df_sub
. - Supprimez les entrées dupliquées du DataFrame
people_df_sub
et créez le DataFramepeople_df_sub_nodup
. - Combien de lignes y a-t-il avant et après la suppression des doublons ?
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Select name, sex and date of birth columns
people_df_sub = people_df.____('name', ____, ____)
# Print the first 10 observations from people_df_sub
people_df_sub.____(____)
# Remove duplicate entries from people_df_sub
people_df_sub_nodup = people_df_sub.____()
# Count the number of rows
print("There were {} rows before removing duplicates, and {} rows after removing duplicates".format(people_df_sub.____(), people_df_sub_nodup.____()))