ComeçarComece de graça

Consultas SQL para filtragem da tabela

No exercício anterior, você executou uma consulta SQL simples em um DataFrame. Há consultas mais sofisticadas que você pode construir para obter o resultado que deseja e usá-lo para análises posteriores, como visualização de dados e aprendizado de máquina. Neste exercício, usaremos a tabela temporária people que você criou anteriormente, filtraremos as linhas em que "sex" é masculino (male) e feminino (female) e criaremos dois DataFrames.

Observe que a "solução" diferencia maiúsculas e minúsculas para os comandos SQL (por exemplo, ela aceita apenas FROM e não from). A "solução" aceita apenas "==" e não "=".

Lembre-se de que você já tem uma SparkSession spark e uma tabela temporária people disponíveis em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver curso

Instruções do exercício

  • Filtre a tabela people para selecionar todas as linhas em que o sexo (sex) é feminino (female) no DataFrame people_female_df.
  • Filtre a tabela people para selecionar todas as linhas em que o sexo (sex) é masculino (male) no DataFrame people_male_df.
  • Conte o número de linhas nos DataFrames people_female e people_male.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Filter the people table to select female sex 
people_female_df = spark.____('SELECT * FROM ____ WHERE sex=="____"')

# Filter the people table DataFrame to select male sex
people_male_df = spark.____('SELECT * ____ people ____ ____=="____"')

# Count the number of rows in both people_df_female and people_male_df DataFrames
print("There are {} rows in the people_female_df and {} rows in the people_male_df DataFrames".format(people_female_df.____(), people_male_df.____()))
Editar e executar o código