Afbellen en filteren
Stel, je hebt een census-gegevensset waarvan je weet dat die een kopregel en een schema heeft. Laten we die gegevensset laden en PySpark het schema laten afleiden. Wat zie je als je filtert op volwassenen ouder dan 40?
Vergeet niet: er is al een SparkSession met de naam spark in je werkruimte!
Deze oefening maakt deel uit van de cursus
Introductie tot PySpark
Oefeninstructies
- Laad het JSON-bestand
adults.json. - Filter de data zodat alleen volwassenen met een
agegroter dan40overblijven. - Laat de resultaten zien.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Load the dataframe
census_df = spark.read.json("adults.json")
# Filter rows based on age condition
salary_filtered_census = census_df.____(census_df[____]____)
# Show the result
____