Valider les lignes via la jointure
Un autre exemple de filtrage des données consiste à utiliser des jointures pour supprimer les entrées non valides. Vous devrez vérifier que les noms de dossiers sont conformes aux attentes, sur la base d'un DataFrame donné nommé valid_folders_df. Le DataFrame split_df est tel que vous l'avez laissé la dernière fois avec un groupe de colonnes scindées.
L'objet spark est disponible et pyspark.sql.functions est importé en tant que F.
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Instructions
- Renommez la colonne
_c0enfolderdans le DataFramevalid_folders_df. - Comptez le nombre de lignes dans
split_df. - Joignez les deux DataFrame sur le nom du dossier et appelez le DataFrame résultant
joined_df. Veillez à diffuser le DataFrame le plus petit. - Vérifiez le nombre de lignes restantes dans le DataFrame et comparez.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Rename the column in valid_folders_df
valid_folders_df = ____
# Count the number of rows in split_df
split_count = ____
# Join the DataFrames
joined_df = split_df.____(____(valid_folders_df), "folder")
# Compare the number of rows remaining
joined_count = ____
print("Before: %d\nAfter: %d" % (split_count, joined_count))