Agregación II
Para que te familiarices con más métodos de agregación incorporados, ¡aquí tienes unos cuantos ejercicios más con la tabla flights
!
Recuerda que ya tienes en tu espacio de trabajo un SparkSession
llamado spark
, junto con el Spark DataFrame flights
.
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones de ejercicio
- Utiliza el método
.avg()
para obtener la duración media de los vuelos de Delta Airlines (donde la columnacarrier
tiene el valor"DL"
) que salieron de SEA. El lugar de salida se almacena en la columnaorigin
.show()
el resultado. - Utiliza el método
.sum()
para obtener el número total de horas que todos los aviones de este conjunto de datos pasaron en el aire, creando una columna llamadaduration_hrs
a partir de la columnaair_time
.show()
el resultado.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()
# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()