Aan de slagBegin gratis

Afbellen en filteren

Stel, je hebt een census-gegevensset waarvan je weet dat die een kopregel en een schema heeft. Laten we die gegevensset laden en PySpark het schema laten afleiden. Wat zie je als je filtert op volwassenen ouder dan 40?

Vergeet niet: er is al een SparkSession met de naam spark in je werkruimte!

Deze oefening maakt deel uit van de cursus

Introductie tot PySpark

Bekijk cursus

Oefeninstructies

  • Laad het JSON-bestand adults.json.
  • Filter de data zodat alleen volwassenen met een age groter dan 40 overblijven.
  • Laat de resultaten zien.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Load the dataframe
census_df = spark.read.json("adults.json")

# Filter rows based on age condition
salary_filtered_census = census_df.____(census_df[____]____)

# Show the result
____
Code bewerken en uitvoeren