Je DataFrame filteren
In de vorige oefening heb je de data gesubset met de operator select(), die vooral wordt gebruikt om een DataFrame kolomgewijs te subsetten. Maar wat als je het DataFrame op basis van een voorwaarde wilt subsetten (bijvoorbeeld: selecteer alle rijen waar het geslacht Female is)? In deze oefening filter je de rijen in het DataFrame people_df waarin 'sex' female en male is en maak je twee aparte gegevenssets. Tot slot tel je het aantal rijen in elk van die gegevenssets.
Onthoud: je hebt al een SparkSession spark en een DataFrame people_df beschikbaar in je workspace.
Deze oefening maakt deel uit van de cursus
Big Data Fundamentals met PySpark
Oefeninstructies
- Filter het DataFrame
people_dfom alle rijen te selecteren waar sex female is in het DataFramepeople_df_female. - Filter het DataFrame
people_dfom alle rijen te selecteren waar sex male is in het DataFramepeople_df_male. - Tel het aantal rijen in de DataFrames
people_df_femaleenpeople_df_male.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Filter people_df to select females
people_df_female = people_df.____(people_df.____ == "female")
# Filter people_df to select males
people_df_male = people_df.____(____ == "____")
# Count the number of rows
print("There are {} rows in the people_df_female DataFrame and {} rows in the people_df_male DataFrame".format(people_df_female.____(), people_df_male.____()))