Création de sous-ensembles et nettoyage des DataFrames PySpark

Après l'inspection des données, il est souvent nécessaire de nettoyer les données, ce qui implique principalement de créer des sous-ensembles, de renommer des colonnes, de supprimer des lignes dupliquées, etc. L'API DataFrame de PySpark fournit plusieurs opérateurs à ces fins. Dans cet exercice, votre tâche consiste à sous-diviser les colonnes « name », « sex » et « date of birth » du DataFrame people_df, à supprimer tous les doublons dans les lignes de cet ensemble de données et à compter le nombre de lignes avant et après l'étape de suppression des doublons.

N'oubliez pas que vous disposez déjà d'une SparkSession spark et d'un DataFrame people_df dans votre espace de travail.

Cet exercice fait partie du cours

Principes fondamentaux des mégadonnées avec PySpark

Afficher le cours

Instructions

Sélectionnez les colonnes « name », « sex » et « date of birth » de people_df et créez le DataFrame people_df_sub.
Affichez les 10 premières observations du DataFrame people_df_sub.
Supprimez les entrées dupliquées du DataFrame people_df_sub et créez le DataFrame people_df_sub_nodup.
Combien de lignes y a-t-il avant et après la suppression des doublons ?

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Select name, sex and date of birth columns
people_df_sub = people_df.____('name', ____, ____)

# Print the first 10 observations from people_df_sub
people_df_sub.____(____)

# Remove duplicate entries from people_df_sub
people_df_sub_nodup = people_df_sub.____()

# Count the number of rows
print("There were {} rows before removing duplicates, and {} rows after removing duplicates".format(people_df_sub.____(), people_df_sub_nodup.____()))

Modifier et exécuter le code