Rijen valideren via join
Een andere manier om data te filteren is door joins te gebruiken om ongeldige items te verwijderen. Je moet controleren of de mapnamen zijn zoals verwacht op basis van een gegeven DataFrame met de naam valid_folders_df. De DataFrame split_df is nog zoals je die eerder hebt achtergelaten, met een set gesplitste kolommen.
Het spark-object is beschikbaar en pyspark.sql.functions is geïmporteerd als F.
Deze oefening maakt deel uit van de cursus
Data opschonen met PySpark
Oefeninstructies
- Hernoem de kolom
_c0naarfolderin de DataFramevalid_folders_df. - Tel het aantal rijen in
split_df. - Join de twee DataFrames op de mapnaam en noem de resulterende DataFrame
joined_df. Zorg dat je de kleinere DataFrame broadcast. - Controleer het resterende aantal rijen in de DataFrame en vergelijk.
Interactieve oefening met praktijkervaring
Probeer deze oefening door deze voorbeeldcode aan te vullen.
# Rename the column in valid_folders_df
valid_folders_df = ____
# Count the number of rows in split_df
split_count = ____
# Join the DataFrames
joined_df = split_df.____(____(valid_folders_df), "folder")
# Compare the number of rows remaining
joined_count = ____
print("Before: %d\nAfter: %d" % (split_count, joined_count))