Erste SchritteKostenlos loslegen

Den DataFrame filtern

In der vorangegangenen Übung hast du Teilmengen der Daten mit dem select()-Operator erstellt, der hauptsächlich dazu verwendet wird, den DataFrame spaltenweise zu unterteilen. Wie sieht es aber aus, wenn du den DataFrame anhand einer Bedingung unterteilen möchtest (z. B. Auswahl aller Zeilen, in denen das Geschlecht weiblich ist)? In dieser Übung filterst du die Zeilen im DataFrame people_df, in denen das Geschlecht weiblich bzw. männlich ist, und erstellst zwei separate Teilmengen. Dann zählst du die Anzahl der Zeilen in jeder dieser Teilmengen.

Zur Erinnerung: Die SparkSession spark und der DataFrame people_df sind schon im Arbeitsbereich verfügbar.

Diese Übung ist Teil des Kurses

Grundlagen von Big Data mit PySpark

Kurs anzeigen

Anleitung zur Übung

  • Filtere den people_df-DataFrame, um alle Zeilen, in denen das Geschlecht weiblich ist, in den DataFrame people_df_female zu übernehmen.
  • Filtere den people_df-DataFrame, um alle Zeilen, in denen das Geschlecht männlich ist, in den DataFrame people_df_male zu übernehmen.
  • Zähle die Anzahl der Zeilen in den DataFrames people_df_female und people_df_male.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

# Filter people_df to select females 
people_df_female = people_df.____(people_df.____ == "female")

# Filter people_df to select males
people_df_male = people_df.____(____ == "____")

# Count the number of rows 
print("There are {} rows in the people_df_female DataFrame and {} rows in the people_df_male DataFrame".format(people_df_female.____(), people_df_male.____()))
Bearbeiten und Ausführen von Code