Ongeldige rijen onderzoeken
Je hebt de rijen met een join succesvol weggefilterd, maar soms wil je de ongeldige data toch bekijken. Deze data kun je opslaan voor latere verwerking of om problemen met je databronnen op te lossen.
Je wilt het verschil tussen twee DataFrames vinden en de ongeldige rijen opslaan.
Het spark-object is gedefinieerd en pyspark.sql.functions is geïmporteerd als F. De oorspronkelijke DataFrame split_df en de gejoinde DataFrame joined_df zijn beschikbaar zoals in hun vorige staat.
Deze oefening maakt deel uit van de cursus
Data opschonen met PySpark
Oefeninstructies
- Bepaal het aantal rijen voor elke DataFrame.
- Maak een DataFrame met alleen de ongeldige rijen.
- Valideer dat de telling van de nieuwe DataFrame is zoals verwacht.
- Bepaal het aantal unieke map-rijen dat is verwijderd.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Determine the row counts for each DataFrame
split_count = ____
joined_count = ____
# Create a DataFrame containing the invalid rows
invalid_df = split_df.____(____(joined_df), '____', '____')
# Validate the count of the new DataFrame is as expected
invalid_count = ____
print(" split_df:\t%d\n joined_df:\t%d\n invalid_df: \t%d" % (split_count, joined_count, invalid_count))
# Determine the number of distinct folder rows removed
invalid_folder_count = invalid_df.____('____').____.____
print("%d distinct invalid folders found" % invalid_folder_count)