Agrupamento e agregação I
Parte do que torna as agregações tão poderosas é a adição de grupos. O PySpark tem uma classe inteira dedicada a DataFrames agrupados: pyspark.sql.GroupedData, que você viu nos dois últimos exercícios.
Você aprendeu a criar um DataFrame agrupado chamando o método .groupBy() com um DataFrame sem argumentos.
Agora você vai ver que, quando passa o nome de uma ou mais colunas do seu DataFrame para o.groupBy()método, os métodos de agregação funcionam da mesma forma que quando você usa umaGROUP BYinstrução em uma consulta SQL!
Lembre-se de que uma SparkSession chamada spark já está em seu espaço de trabalho, junto com o DataFrame flights do Spark.
Este exercício faz parte do curso
Fundamentos do PySpark
Instruções do exercício
- Crie um DataFrame chamado
by_planeque seja agrupado pela colunatailnum. - Use o método
.count()sem argumentos para contar o número de voos que cada avião fez. - Crie um DataFrame chamado
by_originque seja agrupado pela colunaorigin. - Procura a coluna
.avg()``air_timepara descobrir a duração média dos voos saindo de PDX e SEA.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Group by tailnum
by_plane = flights.groupBy("____")
# Number of flights each plane made
by_plane.____.show()
# Group by origin
by_origin = flights.groupBy("____")
# Average duration of flights from PDX and SEA
by_origin.avg("____").show()