Aan de slagBegin gratis

Subsetten en opschonen van PySpark DataFrames

Na het verkennen van de data is het vaak nodig om de data op te schonen. Dit houdt vooral in: subsetten, kolommen hernoemen, dubbele rijen verwijderen, enzovoort. De PySpark DataFrame-API biedt hiervoor verschillende bewerkingen. In deze oefening is het jouw taak om de kolommen 'name', 'sex' en 'date of birth' uit het DataFrame people_df te selecteren, eventuele dubbele rijen uit die gegevensset te verwijderen en het aantal rijen te tellen vóór en na het verwijderen van duplicaten.

Onthoud: je hebt al een SparkSession spark en een DataFrame people_df beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Big Data Fundamentals met PySpark

Bekijk cursus

Oefeninstructies

  • Selecteer de kolommen 'name', 'sex' en 'date of birth' uit people_df en maak het DataFrame people_df_sub.
  • Print de eerste 10 observaties in het DataFrame people_df_sub.
  • Verwijder dubbele rijen uit het DataFrame people_df_sub en maak het DataFrame people_df_sub_nodup.
  • Hoeveel rijen zijn er vóór en nadat de duplicaten zijn verwijderd?

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Select name, sex and date of birth columns
people_df_sub = people_df.____('name', ____, ____)

# Print the first 10 observations from people_df_sub
people_df_sub.____(____)

# Remove duplicate entries from people_df_sub
people_df_sub_nodup = people_df_sub.____()

# Count the number of rows
print("There were {} rows before removing duplicates, and {} rows after removing duplicates".format(people_df_sub.____(), people_df_sub_nodup.____()))
Code bewerken en uitvoeren