Consultas SQL para filtragem da tabela
No exercício anterior, você executou uma consulta SQL simples em um DataFrame. Há consultas mais sofisticadas que você pode construir para obter o resultado que deseja e usá-lo para análises posteriores, como visualização de dados e aprendizado de máquina. Neste exercício, usaremos a tabela temporária people
que você criou anteriormente, filtraremos as linhas em que "sex" é masculino (male) e feminino (female) e criaremos dois DataFrames.
Observe que a "solução" diferencia maiúsculas e minúsculas para os comandos SQL (por exemplo, ela aceita apenas FROM
e não from
). A "solução" aceita apenas "==" e não "=".
Lembre-se de que você já tem uma SparkSession spark
e uma tabela temporária people
disponíveis em seu espaço de trabalho.
Este exercício faz parte do curso
Fundamentos de Big Data com PySpark
Instruções de exercício
- Filtre a tabela
people
para selecionar todas as linhas em que o sexo (sex) é feminino (female) no DataFramepeople_female_df
. - Filtre a tabela
people
para selecionar todas as linhas em que o sexo (sex) é masculino (male) no DataFramepeople_male_df
. - Conte o número de linhas nos DataFrames
people_female
epeople_male
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Filter the people table to select female sex
people_female_df = spark.____('SELECT * FROM ____ WHERE sex=="____"')
# Filter the people table DataFrame to select male sex
people_male_df = spark.____('SELECT * ____ people ____ ____=="____"')
# Count the number of rows in both people_df_female and people_male_df DataFrames
print("There are {} rows in the people_female_df and {} rows in the people_male_df DataFrames".format(people_female_df.____(), people_male_df.____()))