Filtrer votre DataFrame
Dans l'exercice précédent, vous avez subdivisé les données à l'aide de l'opérateur select()
qui est principalement utilisé pour subdiviser le DataFrame par colonne. Mais si vous souhaitez subdiviser le DataFrame en fonction d'une condition (par exemple, sélectionner toutes les lignes où le sexe est « Female ») ? Dans cet exercice, vous allez filtrer les lignes du DataFrame people_df
dans lesquelles « sex » est « female » et « male » et créer deux ensembles de données différents. Enfin, vous compterez le nombre de lignes dans chacun de ces ensembles de données.
N'oubliez pas que vous disposez déjà d'une SparkSession spark
et d'un DataFrame people_df
dans votre espace de travail.
Cet exercice fait partie du cours
Principes fondamentaux des mégadonnées avec PySpark
Instructions
- Filtrez le DataFrame
people_df
pour sélectionner toutes les lignes où le sexe est féminin (female) dans le DataFramepeople_df_female
. - Filtrez le DataFrame
people_df
pour sélectionner toutes les lignes où le sexe est masculin (male) dans le DataFramepeople_df_male
. - Comptez le nombre de lignes dans les DataFrames
people_df_female
etpeople_df_male
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Filter people_df to select females
people_df_female = people_df.____(people_df.____ == "female")
# Filter people_df to select males
people_df_male = people_df.____(____ == "____")
# Count the number of rows
print("There are {} rows in the people_df_female DataFrame and {} rows in the people_df_male DataFrame".format(people_df_female.____(), people_df_male.____()))