Ableiten und filtern
Stell dir vor, du hast einen Zensus-Datensatz, von dem du weißt, dass er einen Header und ein Schema hat. Lass uns diesen Datensatz laden und PySpark das Schema ableiten lassen. Was siehst du, wenn du nach Erwachsenen über 40 filterst?
Denk daran: In deinem Workspace gibt es bereits eine SparkSession namens spark!
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Lade die JSON-Datei
adults.json. - Filtere die Daten auf Erwachsene mit
ageüber40. - Zeige die Ergebnisse an.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Load the dataframe
census_df = spark.read.json("adults.json")
# Filter rows based on age condition
salary_filtered_census = census_df.____(census_df[____]____)
# Show the result
____