Schema ableiten und filtern
Stell dir vor, du hast einen Zensus-Datensatz, von dem du weißt, dass er einen Header und ein Schema hat. Lass uns diesen Datensatz laden und PySpark das Schema ableiten lassen. Was siehst du, wenn du auf Erwachsene über 40 Jahre filterst?
Denke daran: In deinem Workspace gibt es bereits eine SparkSession namens spark!
Diese Übung ist Teil des Kurses
<Kurs>Einführung in PySpark</Kurs>Übungsanweisungen
- Lade die JSON-Datei
adults.json. - Filtere die Daten auf Erwachsene mit
ageüber40. - Zeige die Ergebnisse an.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Load the dataframe
census_df = spark.read.json("adults.json")
# Filter rows based on age condition
salary_filtered_census = census_df.____(census_df[____]____)
# Show the result
____