Filtrer votre DataFrame

Dans l'exercice précédent, vous avez subdivisé les données à l'aide de l'opérateur select() qui est principalement utilisé pour subdiviser le DataFrame par colonne. Mais si vous souhaitez subdiviser le DataFrame en fonction d'une condition (par exemple, sélectionner toutes les lignes où le sexe est « Female ») ? Dans cet exercice, vous allez filtrer les lignes du DataFrame people_df dans lesquelles « sex » est « female » et « male » et créer deux ensembles de données différents. Enfin, vous compterez le nombre de lignes dans chacun de ces ensembles de données.

N'oubliez pas que vous disposez déjà d'une SparkSession spark et d'un DataFrame people_df dans votre espace de travail.

Cet exercice fait partie du cours

<cours>Principes fondamentaux des mégadonnées avec PySpark</cours>

Voir le cours

Instructions de l’exercice

Filtrez le DataFrame people_df pour sélectionner toutes les lignes où le sexe est féminin (female) dans le DataFrame people_df_female.
Filtrez le DataFrame people_df pour sélectionner toutes les lignes où le sexe est masculin (male) dans le DataFrame people_df_male.
Comptez le nombre de lignes dans les DataFrames people_df_female et people_df_male.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Filter people_df to select females 
people_df_female = people_df.____(people_df.____ == "female")

# Filter people_df to select males
people_df_male = people_df.____(____ == "____")

# Count the number of rows 
print("There are {} rows in the people_df_female DataFrame and {} rows in the people_df_male DataFrame".format(people_df_female.____(), people_df_male.____()))

Modifier et exécuter le code