Rijen valideren via join

Een andere manier om data te filteren is door joins te gebruiken om ongeldige items te verwijderen. Je moet controleren of de mapnamen zijn zoals verwacht op basis van een gegeven DataFrame met de naam valid_folders_df. De DataFrame split_df is nog zoals je die eerder hebt achtergelaten, met een set gesplitste kolommen.

Het spark-object is beschikbaar en pyspark.sql.functions is geïmporteerd als F.

Deze oefening maakt deel uit van de cursus

Data opschonen met PySpark

Bekijk cursus

Oefeninstructies

Hernoem de kolom _c0 naar folder in de DataFrame valid_folders_df.
Tel het aantal rijen in split_df.
Join de twee DataFrames op de mapnaam en noem de resulterende DataFrame joined_df. Zorg dat je de kleinere DataFrame broadcast.
Controleer het resterende aantal rijen in de DataFrame en vergelijk.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Rename the column in valid_folders_df
valid_folders_df = ____

# Count the number of rows in split_df
split_count = ____

# Join the DataFrames
joined_df = split_df.____(____(valid_folders_df), "folder")

# Compare the number of rows remaining
joined_count = ____
print("Before: %d\nAfter: %d" % (split_count, joined_count))

Code bewerken en uitvoeren