Consultas SQL para filtragem da tabela
No exercício anterior, você executou uma consulta SQL simples em um DataFrame. Há consultas mais sofisticadas que você pode construir para obter o resultado que deseja e usá-lo para análises posteriores, como visualização de dados e aprendizado de máquina. Neste exercício, usaremos a tabela temporária people que você criou anteriormente, filtraremos as linhas em que "sex" é masculino (male) e feminino (female) e criaremos dois DataFrames.
Observe que a "solução" diferencia maiúsculas e minúsculas para os comandos SQL (por exemplo, ela aceita apenas FROM e não from). A "solução" aceita apenas "==" e não "=".
Lembre-se de que você já tem uma SparkSession spark e uma tabela temporária people disponíveis em seu espaço de trabalho.
Este exercício faz parte do curso
Fundamentos de Big Data com PySpark
Instruções do exercício
- Filtre a tabela
peoplepara selecionar todas as linhas em que o sexo (sex) é feminino (female) no DataFramepeople_female_df. - Filtre a tabela
peoplepara selecionar todas as linhas em que o sexo (sex) é masculino (male) no DataFramepeople_male_df. - Conte o número de linhas nos DataFrames
people_femaleepeople_male.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Filter the people table to select female sex
people_female_df = spark.____('SELECT * FROM ____ WHERE sex=="____"')
# Filter the people table DataFrame to select male sex
people_male_df = spark.____('SELECT * ____ people ____ ____=="____"')
# Count the number of rows in both people_df_female and people_male_df DataFrames
print("There are {} rows in the people_female_df and {} rows in the people_male_df DataFrames".format(people_female_df.____(), people_male_df.____()))