Den DataFrame filtern

In der vorangegangenen Übung hast du Teilmengen der Daten mit dem select()-Operator erstellt, der hauptsächlich dazu verwendet wird, den DataFrame spaltenweise zu unterteilen. Wie sieht es aber aus, wenn du den DataFrame anhand einer Bedingung unterteilen möchtest (z. B. Auswahl aller Zeilen, in denen das Geschlecht weiblich ist)? In dieser Übung filterst du die Zeilen im DataFrame people_df, in denen das Geschlecht weiblich bzw. männlich ist, und erstellst zwei separate Teilmengen. Dann zählst du die Anzahl der Zeilen in jeder dieser Teilmengen.

Zur Erinnerung: Die SparkSession spark und der DataFrame people_df sind schon im Arbeitsbereich verfügbar.

Diese Übung ist Teil des Kurses

<Kurs>Grundlagen von Big Data mit PySpark</Kurs>

Kurs ansehen

Übungsanweisungen

Filtere den people_df-DataFrame, um alle Zeilen, in denen das Geschlecht weiblich ist, in den DataFrame people_df_female zu übernehmen.
Filtere den people_df-DataFrame, um alle Zeilen, in denen das Geschlecht männlich ist, in den DataFrame people_df_male zu übernehmen.
Zähle die Anzahl der Zeilen in den DataFrames people_df_female und people_df_male.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Filter people_df to select females 
people_df_female = people_df.____(people_df.____ == "female")

# Filter people_df to select males
people_df_male = people_df.____(____ == "____")

# Count the number of rows 
print("There are {} rows in the people_df_female DataFrame and {} rows in the people_df_male DataFrame".format(people_df_female.____(), people_df_male.____()))

Code bearbeiten und ausführen