Valider les lignes via la jointure
Un autre exemple de filtrage des données consiste à utiliser des jointures pour supprimer les entrées non valides. Vous devrez vérifier que les noms de dossiers sont conformes aux attentes, sur la base d'un DataFrame donné nommé valid_folders_df
. Le DataFrame split_df
est tel que vous l'avez laissé la dernière fois avec un groupe de colonnes scindées.
L'objet spark
est disponible et pyspark.sql.functions
est importé en tant que F
.
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Instructions
- Renommez la colonne
_c0
enfolder
dans le DataFramevalid_folders_df
. - Comptez le nombre de lignes dans
split_df
. - Joignez les deux DataFrame sur le nom du dossier et appelez le DataFrame résultant
joined_df
. Veillez à diffuser le DataFrame le plus petit. - Vérifiez le nombre de lignes restantes dans le DataFrame et comparez.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Rename the column in valid_folders_df
valid_folders_df = ____
# Count the number of rows in split_df
split_count = ____
# Join the DataFrames
joined_df = split_df.____(____(valid_folders_df), "folder")
# Compare the number of rows remaining
joined_count = ____
print("Before: %d\nAfter: %d" % (split_count, joined_count))