Agregación II
Para que te familiarices con más métodos de agregación incorporados, ¡aquí tienes unos cuantos ejercicios más con la tabla flights!
Recuerda que ya tienes en tu espacio de trabajo un SparkSession llamado spark, junto con el Spark DataFrame flights.
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones del ejercicio
- Utiliza el método
.avg()para obtener la duración media de los vuelos de Delta Airlines (donde la columnacarriertiene el valor"DL") que salieron de SEA. El lugar de salida se almacena en la columnaorigin.show()el resultado. - Utiliza el método
.sum()para obtener el número total de horas que todos los aviones de este conjunto de datos pasaron en el aire, creando una columna llamadaduration_hrsa partir de la columnaair_time.show()el resultado.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()
# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()