Agregação II
Para que você se familiarize com mais métodos de agregação integrados, aqui vão mais alguns exercícios envolvendo a tabela flights!
Lembre-se de que uma SparkSession chamada spark já está em seu espaço de trabalho, junto com o DataFrame flights do Spark.
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
- Use o método
.avg()para calcular o tempo médio dos voos da Delta Airlines (em que a colunacarriertem o valor"DL") que saíram de SEA. O local de partida é armazenado na colunaorigin. Useshow()para mostrar o resultado. - Utilize o método
.sum()para calcular o número total de horas que todos os aviões desse conjunto de dados passaram no ar, criando uma coluna chamadaduration_hrsa partir da colunaair_time. Useshow()para mostrar o resultado.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()
# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()