ComenzarEmpieza gratis

Agregación II

Para que te familiarices con más métodos de agregación incorporados, ¡aquí tienes unos cuantos ejercicios más con la tabla flights!

Recuerda que ya tienes en tu espacio de trabajo un SparkSession llamado spark, junto con el Spark DataFrame flights.

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Instrucciones de ejercicio

  • Utiliza el método .avg() para obtener la duración media de los vuelos de Delta Airlines (donde la columna carrier tiene el valor "DL") que salieron de SEA. El lugar de salida se almacena en la columna origin. show() el resultado.
  • Utiliza el método .sum() para obtener el número total de horas que todos los aviones de este conjunto de datos pasaron en el aire, creando una columna llamada duration_hrs a partir de la columna air_time. show() el resultado.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()

# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()
Editar y ejecutar código