Rijen valideren via join
Een andere manier om data te filteren is door joins te gebruiken om ongeldige items te verwijderen. Je moet controleren of de mapnamen zijn zoals verwacht op basis van een gegeven DataFrame met de naam valid_folders_df. De DataFrame split_df is nog zoals je die eerder hebt achtergelaten, met een set gesplitste kolommen.
Het spark-object is beschikbaar en pyspark.sql.functions is geïmporteerd als F.
Deze oefening maakt deel uit van de cursus
Data opschonen met PySpark
Oefeninstructies
- Hernoem de kolom
_c0naarfolderin de DataFramevalid_folders_df. - Tel het aantal rijen in
split_df. - Join de twee DataFrames op de mapnaam en noem de resulterende DataFrame
joined_df. Zorg dat je de kleinere DataFrame broadcast. - Controleer het resterende aantal rijen in de DataFrame en vergelijk.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Rename the column in valid_folders_df
valid_folders_df = ____
# Count the number of rows in split_df
split_count = ____
# Join the DataFrames
joined_df = split_df.____(____(valid_folders_df), "folder")
# Compare the number of rows remaining
joined_count = ____
print("Before: %d\nAfter: %d" % (split_count, joined_count))