ComeçarComece gratuitamente

Consultas SQL para filtragem da tabela

No exercício anterior, você executou uma consulta SQL simples em um DataFrame. Há consultas mais sofisticadas que você pode construir para obter o resultado que deseja e usá-lo para análises posteriores, como visualização de dados e aprendizado de máquina. Neste exercício, usaremos a tabela temporária people que você criou anteriormente, filtraremos as linhas em que "sex" é masculino (male) e feminino (female) e criaremos dois DataFrames.

Observe que a "solução" diferencia maiúsculas e minúsculas para os comandos SQL (por exemplo, ela aceita apenas FROM e não from). A "solução" aceita apenas "==" e não "=".

Lembre-se de que você já tem uma SparkSession spark e uma tabela temporária people disponíveis em seu espaço de trabalho.

Este exercício faz parte do curso

Fundamentos de Big Data com PySpark

Ver Curso

Instruções de exercício

  • Filtre a tabela people para selecionar todas as linhas em que o sexo (sex) é feminino (female) no DataFrame people_female_df.
  • Filtre a tabela people para selecionar todas as linhas em que o sexo (sex) é masculino (male) no DataFrame people_male_df.
  • Conte o número de linhas nos DataFrames people_female e people_male.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Filter the people table to select female sex 
people_female_df = spark.____('SELECT * FROM ____ WHERE sex=="____"')

# Filter the people table DataFrame to select male sex
people_male_df = spark.____('SELECT * ____ people ____ ____=="____"')

# Count the number of rows in both people_df_female and people_male_df DataFrames
print("There are {} rows in the people_female_df and {} rows in the people_male_df DataFrames".format(people_female_df.____(), people_male_df.____()))
Editar e executar código