Aan de slagGa gratis aan de slag

Je DataFrame filteren

In de vorige oefening heb je de data gesubset met de operator select(), die vooral wordt gebruikt om een DataFrame kolomgewijs te subsetten. Maar wat als je het DataFrame op basis van een voorwaarde wilt subsetten (bijvoorbeeld: selecteer alle rijen waar het geslacht Female is)? In deze oefening filter je de rijen in het DataFrame people_df waarin 'sex' female en male is en maak je twee aparte gegevenssets. Tot slot tel je het aantal rijen in elk van die gegevenssets.

Onthoud: je hebt al een SparkSession spark en een DataFrame people_df beschikbaar in je workspace.

Deze oefening maakt deel uit van de cursus

Big Data Fundamentals met PySpark

Cursus bekijken

Oefeninstructies

  • Filter het DataFrame people_df om alle rijen te selecteren waar sex female is in het DataFrame people_df_female.
  • Filter het DataFrame people_df om alle rijen te selecteren waar sex male is in het DataFrame people_df_male.
  • Tel het aantal rijen in de DataFrames people_df_female en people_df_male.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Filter people_df to select females 
people_df_female = people_df.____(people_df.____ == "female")

# Filter people_df to select males
people_df_male = people_df.____(____ == "____")

# Count the number of rows 
print("There are {} rows in the people_df_female DataFrame and {} rows in the people_df_male DataFrame".format(people_df_female.____(), people_df_male.____()))
Code bewerken en uitvoeren