Den DataFrame filtern
In der vorangegangenen Übung hast du Teilmengen der Daten mit dem select()
-Operator erstellt, der hauptsächlich dazu verwendet wird, den DataFrame spaltenweise zu unterteilen. Wie sieht es aber aus, wenn du den DataFrame anhand einer Bedingung unterteilen möchtest (z. B. Auswahl aller Zeilen, in denen das Geschlecht weiblich ist)? In dieser Übung filterst du die Zeilen im DataFrame people_df
, in denen das Geschlecht weiblich bzw. männlich ist, und erstellst zwei separate Teilmengen. Dann zählst du die Anzahl der Zeilen in jeder dieser Teilmengen.
Zur Erinnerung: Die SparkSession spark
und der DataFrame people_df
sind schon im Arbeitsbereich verfügbar.
Diese Übung ist Teil des Kurses
Grundlagen von Big Data mit PySpark
Anleitung zur Übung
- Filtere den
people_df
-DataFrame, um alle Zeilen, in denen das Geschlecht weiblich ist, in den DataFramepeople_df_female
zu übernehmen. - Filtere den
people_df
-DataFrame, um alle Zeilen, in denen das Geschlecht männlich ist, in den DataFramepeople_df_male
zu übernehmen. - Zähle die Anzahl der Zeilen in den DataFrames
people_df_female
undpeople_df_male
.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
# Filter people_df to select females
people_df_female = people_df.____(people_df.____ == "female")
# Filter people_df to select males
people_df_male = people_df.____(____ == "____")
# Count the number of rows
print("There are {} rows in the people_df_female DataFrame and {} rows in the people_df_male DataFrame".format(people_df_female.____(), people_df_male.____()))