Aan de slagGa gratis aan de slag

Afbellen en filteren

Stel, je hebt een census-gegevensset waarvan je weet dat die een kopregel en een schema heeft. Laten we die gegevensset laden en PySpark het schema laten afleiden. Wat zie je als je filtert op volwassenen ouder dan 40?

Vergeet niet: er is al een SparkSession met de naam spark in je werkruimte!

Deze oefening maakt deel uit van de cursus

Introductie tot PySpark

Cursus bekijken

Oefeninstructies

  • Laad het JSON-bestand adults.json.
  • Filter de data zodat alleen volwassenen met een age groter dan 40 overblijven.
  • Laat de resultaten zien.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Load the dataframe
census_df = spark.read.json("adults.json")

# Filter rows based on age condition
salary_filtered_census = census_df.____(census_df[____]____)

# Show the result
____
Code bewerken en uitvoeren