Agregación II
Para que te familiarices con más métodos de agregación incorporados, ¡aquí tienes unos cuantos ejercicios más con la tabla flights!
Recuerda que ya tienes en tu espacio de trabajo un SparkSession llamado spark, junto con el Spark DataFrame flights.
Este ejercicio forma parte del curso
Fundamentos de PySpark
Instrucciones del ejercicio
- Usa el
.avg()método para obtener la duración media de los vuelos de Delta Airlines (en los que lacarriercolumna tiene el valor"DL") que salieron de SEA. El lugar de salida se almacena en la columnaorigin.show()el resultado. - Utiliza el método
.sum()para obtener el número total de horas que todos los aviones de este conjunto de datos pasaron en el aire, creando una columna llamadaduration_hrsa partir de la columnaair_time.show()el resultado.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()
# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()