ComeçarComece gratuitamente

Agregação II

Para que você se familiarize com mais métodos de agregação integrados, aqui vão mais alguns exercícios envolvendo a tabela flights!

Lembre-se de que uma SparkSession chamada spark já está em seu espaço de trabalho, junto com o DataFrame flights do Spark.

Este exercício faz parte do curso

Introdução ao PySpark

Ver Curso

Instruções de exercício

  • Use o método .avg() para calcular o tempo médio dos voos da Delta Airlines (em que a coluna carrier tem o valor "DL") que saíram de SEA. O local de partida é armazenado na coluna origin. Use show() para mostrar o resultado.
  • Utilize o método .sum() para calcular o número total de horas que todos os aviões desse conjunto de dados passaram no ar, criando uma coluna chamada duration_hrs a partir da coluna air_time. Use show() para mostrar o resultado.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()

# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()
Editar e executar código