Valider les lignes via une jointure
Un autre moyen de filtrer des données consiste à utiliser des jointures pour supprimer les entrées invalides. Vous devez vérifier que les noms de dossiers sont conformes aux attentes en vous basant sur un DataFrame nommé valid_folders_df. Le DataFrame split_df est resté tel que vous l’avez laissé, avec un ensemble de colonnes issues du découpage.
L’objet spark est disponible, et pyspark.sql.functions est importé sous le nom F.
Cet exercice fait partie du cours
Nettoyer des données avec PySpark
Instructions
- Renommez la colonne
_c0enfolderdans le DataFramevalid_folders_df. - Comptez le nombre de lignes dans
split_df. - Faites une jointure des deux DataFrames sur le nom du dossier et appelez le DataFrame obtenu
joined_df. Assurez-vous de diffuser (broadcast) le DataFrame le plus petit. - Vérifiez le nombre de lignes restantes dans le DataFrame et comparez.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Rename the column in valid_folders_df
valid_folders_df = ____
# Count the number of rows in split_df
split_count = ____
# Join the DataFrames
joined_df = split_df.____(____(valid_folders_df), "folder")
# Compare the number of rows remaining
joined_count = ____
print("Before: %d\nAfter: %d" % (split_count, joined_count))