ComenzarEmpieza gratis

Agrupación y agregación II

Además de los métodos GroupedData que ya has visto, también existe el método .agg(). Este método te permite pasar una expresión de columna agregada que utilice cualquiera de las funciones agregadas del submódulo pyspark.sql.functions.

Este submódulo contiene muchas funciones útiles para calcular cosas como las desviaciones típicas. Todas las funciones de agregación de este submódulo toman el nombre de una columna de una tabla GroupedData.

Recuerda que ya tienes en tu espacio de trabajo un SparkSession llamado spark, junto con el Spark DataFrame flights. Los DataFrames agrupados que creaste en el último ejercicio también están en tu espacio de trabajo.

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Instrucciones de ejercicio

  • Importa el submódulo pyspark.sql.functions como F.
  • Crea una tabla GroupedData llamada by_month_dest que esté agrupada por las columnas month y dest. Haz referencia a las dos columnas pasando ambas cadenas como argumentos separados.
  • Utiliza el método .avg() en el DataFrame by_month_dest para obtener la media de dep_delay en cada mes para cada destino.
  • Halla la desviación típica de dep_delay utilizando el método .agg() con la función F.stddev().

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Import pyspark.sql.functions as F
import ____ as F

# Group by month and dest
by_month_dest = flights.groupBy(____)

# Average departure delay by month and destination
by_month_dest.____.show()

# Standard deviation of departure delay
by_month_dest.agg(F.____(____)).show()
Editar y ejecutar código