Subsetten en opschonen van PySpark DataFrames

Na het verkennen van de data is het vaak nodig om de data op te schonen. Dit houdt vooral in: subsetten, kolommen hernoemen, dubbele rijen verwijderen, enzovoort. De PySpark DataFrame-API biedt hiervoor verschillende bewerkingen. In deze oefening is het jouw taak om de kolommen 'name', 'sex' en 'date of birth' uit het DataFrame people_df te selecteren, eventuele dubbele rijen uit die gegevensset te verwijderen en het aantal rijen te tellen vóór en na het verwijderen van duplicaten.

Onthoud: je hebt al een SparkSession spark en een DataFrame people_df beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Big Data Fundamentals met PySpark

Bekijk cursus

Oefeninstructies

Selecteer de kolommen 'name', 'sex' en 'date of birth' uit people_df en maak het DataFrame people_df_sub.
Print de eerste 10 observaties in het DataFrame people_df_sub.
Verwijder dubbele rijen uit het DataFrame people_df_sub en maak het DataFrame people_df_sub_nodup.
Hoeveel rijen zijn er vóór en nadat de duplicaten zijn verwijderd?

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Select name, sex and date of birth columns
people_df_sub = people_df.____('name', ____, ____)

# Print the first 10 observations from people_df_sub
people_df_sub.____(____)

# Remove duplicate entries from people_df_sub
people_df_sub_nodup = people_df_sub.____()

# Count the number of rows
print("There were {} rows before removing duplicates, and {} rows after removing duplicates".format(people_df_sub.____(), people_df_sub_nodup.____()))

Code bewerken en uitvoeren