Agregando no PySpark
Agora você está pronto para fazer suas próprias agregações!
Você vai usar um conjunto de dados de salários que já usou antes. Vamos ver quais agregações você consegue criar!
Uma SparkSession chamada spark já está no seu ambiente, junto com o DataFrame do Spark salaries_df.
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
- Encontre o salário mínimo em uma empresa dos EUA, Small — fazendo o filtro referenciando a coluna diretamente (
"salary_in_usd"), sem passar uma string SQL. - Encontre o salário máximo em uma empresa dos EUA, Large, indicada por
"L"— fazendo o filtro referenciando a coluna diretamente ("salary_in_usd"), sem passar uma string SQL.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Find the minimum salaries for small companies
salaries_df.filter(salaries_df.company_size == "S").groupBy().____.show()
# Find the maximum salaries for large companies
salaries_df.filter(salaries_df.company_size ____).____().max("salary_in_usd").show()