Filtrar seu DataFrame

No exercício anterior, você fez um subconjunto dos dados usando o operador select(), que é usado principalmente para fazer o subconjunto do DataFrame em colunas. E se você quiser fazer o subconjunto do DataFrame com base em uma condição (por exemplo, selecionar todas as linhas em que o sexo é Feminino). Neste exercício, você filtrará as linhas do DataFrame people_df em que "sex" é feminino (female) e masculino (male) e criará dois conjuntos de dados diferentes. Por fim, você contará o número de linhas em cada um desses conjuntos de dados.

Lembre-se de que você já tem um SparkSession spark e um DataFrame people_df disponíveis em seu espaço de trabalho.

Este exercicio faz parte do curso

Fundamentos de Big Data com PySpark

Ver curso

Instruções do exercicio

Filtre o DataFrame people_df para selecionar todas as linhas em que o sexo (sex) é feminino (female) no DataFrame people_df_female.
Filtre o DataFrame people_df para selecionar todas as linhas em que o sexo (sex) é masculino (male) no DataFrame people_df_male.
Conte o número de linhas nos DataFrames people_df_female e people_df_male.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Filter people_df to select females 
people_df_female = people_df.____(people_df.____ == "female")

# Filter people_df to select males
people_df_male = people_df.____(____ == "____")

# Count the number of rows 
print("There are {} rows in the people_df_female DataFrame and {} rows in the people_df_male DataFrame".format(people_df_female.____(), people_df_male.____()))

Editar e Executar Código