Subsetten en opschonen van PySpark DataFrames
Na het verkennen van de data is het vaak nodig om de data op te schonen. Dit houdt vooral in: subsetten, kolommen hernoemen, dubbele rijen verwijderen, enzovoort. De PySpark DataFrame-API biedt hiervoor verschillende bewerkingen. In deze oefening is het jouw taak om de kolommen 'name', 'sex' en 'date of birth' uit het DataFrame people_df te selecteren, eventuele dubbele rijen uit die gegevensset te verwijderen en het aantal rijen te tellen vóór en na het verwijderen van duplicaten.
Onthoud: je hebt al een SparkSession spark en een DataFrame people_df beschikbaar in je werkruimte.
Deze oefening maakt deel uit van de cursus
Big Data Fundamentals met PySpark
Oefeninstructies
- Selecteer de kolommen 'name', 'sex' en 'date of birth' uit
people_dfen maak het DataFramepeople_df_sub. - Print de eerste 10 observaties in het DataFrame
people_df_sub. - Verwijder dubbele rijen uit het DataFrame
people_df_suben maak het DataFramepeople_df_sub_nodup. - Hoeveel rijen zijn er vóór en nadat de duplicaten zijn verwijderd?
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Select name, sex and date of birth columns
people_df_sub = people_df.____('name', ____, ____)
# Print the first 10 observations from people_df_sub
people_df_sub.____(____)
# Remove duplicate entries from people_df_sub
people_df_sub_nodup = people_df_sub.____()
# Count the number of rows
print("There were {} rows before removing duplicates, and {} rows after removing duplicates".format(people_df_sub.____(), people_df_sub_nodup.____()))