LoslegenKostenlos starten

Schema ableiten und filtern

Stell dir vor, du hast einen Zensus-Datensatz, von dem du weißt, dass er einen Header und ein Schema hat. Lass uns diesen Datensatz laden und PySpark das Schema ableiten lassen. Was siehst du, wenn du auf Erwachsene über 40 Jahre filterst?

Denke daran: In deinem Workspace gibt es bereits eine SparkSession namens spark!

Diese Übung ist Teil des Kurses

<Kurs>Einführung in PySpark</Kurs>
Kurs ansehen

Übungsanweisungen

  • Lade die JSON-Datei adults.json.
  • Filtere die Daten auf Erwachsene mit age über 40.
  • Zeige die Ergebnisse an.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Load the dataframe
census_df = spark.read.json("adults.json")

# Filter rows based on age condition
salary_filtered_census = census_df.____(census_df[____]____)

# Show the result
____
Code bearbeiten und ausführen