Agrupamento e agregação II
Além dos métodos GroupedData
que você já viu, há também o método .agg()
.
Esse método permite que você passe uma expressão de coluna agregada que usa qualquer uma das funções agregadas do submódulo pyspark.sql.functions
.
Esse submódulo contém muitas funções úteis para cálculos como desvios-padrão. Todas as funções de agregação desse submódulo recebem o nome de uma coluna de uma tabela GroupedData
.
Lembre-se de que uma SparkSession
chamada spark
já está em seu espaço de trabalho, junto com o DataFrame flights
do Spark. Os DataFrames agrupados que você criou no último exercício também estão no seu espaço de trabalho.
Este exercício faz parte do curso
Introdução ao PySpark
Instruções de exercício
- Importe o submódulo
pyspark.sql.functions
comoF
. - Crie uma tabela
GroupedData
chamadaby_month_dest
que seja agrupada pelas colunasmonth
edest
. Consulte as duas colunas passando ambas as strings como argumentos separados. - Use o método
.avg()
com o DataFrameby_month_dest
para calcular a média dedep_delay
em cada mês, para cada destino. - Encontre o desvio-padrão de
dep_delay
usando o método.agg()
com a funçãoF.stddev()
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Import pyspark.sql.functions as F
import ____ as F
# Group by month and dest
by_month_dest = flights.groupBy(____)
# Average departure delay by month and destination
by_month_dest.____.show()
# Standard deviation of departure delay
by_month_dest.agg(F.____(____)).show()