ComeçarComece gratuitamente

Filtrar seu DataFrame

No exercício anterior, você fez um subconjunto dos dados usando o operador select(), que é usado principalmente para fazer o subconjunto do DataFrame em colunas. E se você quiser fazer o subconjunto do DataFrame com base em uma condição (por exemplo, selecionar todas as linhas em que o sexo é Feminino). Neste exercício, você filtrará as linhas do DataFrame people_df em que "sex" é feminino (female) e masculino (male) e criará dois conjuntos de dados diferentes. Por fim, você contará o número de linhas em cada um desses conjuntos de dados.

Lembre-se de que você já tem um SparkSession spark e um DataFrame people_df disponíveis em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver Curso

Instruções de exercício

  • Filtre o DataFrame people_df para selecionar todas as linhas em que o sexo (sex) é feminino (female) no DataFrame people_df_female.
  • Filtre o DataFrame people_df para selecionar todas as linhas em que o sexo (sex) é masculino (male) no DataFrame people_df_male.
  • Conte o número de linhas nos DataFrames people_df_female e people_df_male.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Filter people_df to select females 
people_df_female = people_df.____(people_df.____ == "female")

# Filter people_df to select males
people_df_male = people_df.____(____ == "____")

# Count the number of rows 
print("There are {} rows in the people_df_female DataFrame and {} rows in the people_df_male DataFrame".format(people_df_female.____(), people_df_male.____()))
Editar e executar código