Agregação II
Para que você se familiarize com mais métodos de agregação integrados, aqui vão mais alguns exercícios envolvendo a tabela flights!
Lembre-se de que uma SparkSession chamada spark já está em seu espaço de trabalho, junto com o DataFrame flights do Spark.
Este exercício faz parte do curso
Fundamentos do PySpark
Instruções do exercício
- Usa o
.avg()método para calcular a duração média dos voos da Delta Airlines (onde acarriercoluna tem o valor"DL") que partiram de SEA. O local de partida é armazenado na colunaorigin. Useshow()para mostrar o resultado. - Utilize o método
.sum()para calcular o número total de horas que todos os aviões desse conjunto de dados passaram no ar, criando uma coluna chamadaduration_hrsa partir da colunaair_time. Useshow()para mostrar o resultado.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()
# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()