Agrupación y agregación II
Además de los métodos GroupedData que ya has visto, también existe el método .agg().
Este método te permite pasar una expresión de columna agregada que utilice cualquiera de las funciones agregadas del submódulo pyspark.sql.functions.
Este submódulo contiene muchas funciones útiles para calcular cosas como las desviaciones típicas. Todas las funciones de agregación de este submódulo toman el nombre de una columna de una tabla GroupedData.
Recuerda que ya tienes en tu espacio de trabajo un SparkSession llamado spark, junto con el Spark DataFrame flights. Los DataFrames agrupados que creaste en el último ejercicio también están en tu espacio de trabajo.
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones del ejercicio
- Importa el submódulo
pyspark.sql.functionscomoF. - Crea una tabla
GroupedDatallamadaby_month_destque esté agrupada por las columnasmonthydest. Haz referencia a las dos columnas pasando ambas cadenas como argumentos separados. - Utiliza el método
.avg()en el DataFrameby_month_destpara obtener la media dedep_delayen cada mes para cada destino. - Halla la desviación típica de
dep_delayutilizando el método.agg()con la funciónF.stddev().
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import pyspark.sql.functions as F
import ____ as F
# Group by month and dest
by_month_dest = flights.groupBy(____)
# Average departure delay by month and destination
by_month_dest.____.show()
# Standard deviation of departure delay
by_month_dest.agg(F.____(____)).show()