Agrupamento e agregação II
Além dos métodos GroupedData que você já viu, há também o método .agg().
Esse método permite que você passe uma expressão de coluna agregada que usa qualquer uma das funções agregadas do submódulo pyspark.sql.functions.
Esse submódulo contém muitas funções úteis para cálculos como desvios-padrão. Todas as funções de agregação desse submódulo recebem o nome de uma coluna de uma tabela GroupedData.
Lembre-se de que uma SparkSession chamada spark já está em seu espaço de trabalho, junto com o DataFrame flights do Spark. Os DataFrames agrupados que você criou no último exercício também estão no seu espaço de trabalho.
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
- Importe o submódulo
pyspark.sql.functionscomoF. - Crie uma tabela
GroupedDatachamadaby_month_destque seja agrupada pelas colunasmonthedest. Consulte as duas colunas passando ambas as strings como argumentos separados. - Use o método
.avg()com o DataFrameby_month_destpara calcular a média dedep_delayem cada mês, para cada destino. - Encontre o desvio-padrão de
dep_delayusando o método.agg()com a funçãoF.stddev().
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import pyspark.sql.functions as F
import ____ as F
# Group by month and dest
by_month_dest = flights.groupBy(____)
# Average departure delay by month and destination
by_month_dest.____.show()
# Standard deviation of departure delay
by_month_dest.agg(F.____(____)).show()