Agrupación y agregación II
Además de los métodos GroupedData
que ya has visto, también existe el método .agg()
.
Este método te permite pasar una expresión de columna agregada que utilice cualquiera de las funciones agregadas del submódulo pyspark.sql.functions
.
Este submódulo contiene muchas funciones útiles para calcular cosas como las desviaciones típicas. Todas las funciones de agregación de este submódulo toman el nombre de una columna de una tabla GroupedData
.
Recuerda que ya tienes en tu espacio de trabajo un SparkSession
llamado spark
, junto con el Spark DataFrame flights
. Los DataFrames agrupados que creaste en el último ejercicio también están en tu espacio de trabajo.
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones de ejercicio
- Importa el submódulo
pyspark.sql.functions
comoF
. - Crea una tabla
GroupedData
llamadaby_month_dest
que esté agrupada por las columnasmonth
ydest
. Haz referencia a las dos columnas pasando ambas cadenas como argumentos separados. - Utiliza el método
.avg()
en el DataFrameby_month_dest
para obtener la media dedep_delay
en cada mes para cada destino. - Halla la desviación típica de
dep_delay
utilizando el método.agg()
con la funciónF.stddev()
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Import pyspark.sql.functions as F
import ____ as F
# Group by month and dest
by_month_dest = flights.groupBy(____)
# Average departure delay by month and destination
by_month_dest.____.show()
# Standard deviation of departure delay
by_month_dest.agg(F.____(____)).show()