Agregação II
Para que você se familiarize com mais métodos de agregação integrados, aqui vão mais alguns exercícios envolvendo a tabela flights
!
Lembre-se de que uma SparkSession
chamada spark
já está em seu espaço de trabalho, junto com o DataFrame flights
do Spark.
Este exercício faz parte do curso
Introdução ao PySpark
Instruções de exercício
- Use o método
.avg()
para calcular o tempo médio dos voos da Delta Airlines (em que a colunacarrier
tem o valor"DL"
) que saíram de SEA. O local de partida é armazenado na colunaorigin
. Useshow()
para mostrar o resultado. - Utilize o método
.sum()
para calcular o número total de horas que todos os aviões desse conjunto de dados passaram no ar, criando uma coluna chamadaduration_hrs
a partir da colunaair_time
. Useshow()
para mostrar o resultado.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()
# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()