Filtrar seu DataFrame
No exercício anterior, você fez um subconjunto dos dados usando o operador select()
, que é usado principalmente para fazer o subconjunto do DataFrame em colunas. E se você quiser fazer o subconjunto do DataFrame com base em uma condição (por exemplo, selecionar todas as linhas em que o sexo é Feminino). Neste exercício, você filtrará as linhas do DataFrame people_df
em que "sex" é feminino (female) e masculino (male) e criará dois conjuntos de dados diferentes. Por fim, você contará o número de linhas em cada um desses conjuntos de dados.
Lembre-se de que você já tem um SparkSession spark
e um DataFrame people_df
disponíveis em seu espaço de trabalho.
Este exercício faz parte do curso
Fundamentos de Big Data com PySpark
Instruções de exercício
- Filtre o DataFrame
people_df
para selecionar todas as linhas em que o sexo (sex) é feminino (female) no DataFramepeople_df_female
. - Filtre o DataFrame
people_df
para selecionar todas as linhas em que o sexo (sex) é masculino (male) no DataFramepeople_df_male
. - Conte o número de linhas nos DataFrames
people_df_female
epeople_df_male
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Filter people_df to select females
people_df_female = people_df.____(people_df.____ == "female")
# Filter people_df to select males
people_df_male = people_df.____(____ == "____")
# Count the number of rows
print("There are {} rows in the people_df_female DataFrame and {} rows in the people_df_male DataFrame".format(people_df_female.____(), people_df_male.____()))