ComeçarComece gratuitamente

Agrupamento e agregação II

Além dos métodos GroupedData que você já viu, há também o método .agg(). Esse método permite que você passe uma expressão de coluna agregada que usa qualquer uma das funções agregadas do submódulo pyspark.sql.functions.

Esse submódulo contém muitas funções úteis para cálculos como desvios-padrão. Todas as funções de agregação desse submódulo recebem o nome de uma coluna de uma tabela GroupedData.

Lembre-se de que uma SparkSession chamada spark já está em seu espaço de trabalho, junto com o DataFrame flights do Spark. Os DataFrames agrupados que você criou no último exercício também estão no seu espaço de trabalho.

Este exercício faz parte do curso

Introdução ao PySpark

Ver Curso

Instruções de exercício

  • Importe o submódulo pyspark.sql.functions como F.
  • Crie uma tabela GroupedData chamada by_month_dest que seja agrupada pelas colunas month e dest. Consulte as duas colunas passando ambas as strings como argumentos separados.
  • Use o método .avg() com o DataFrame by_month_dest para calcular a média de dep_delay em cada mês, para cada destino.
  • Encontre o desvio-padrão de dep_delay usando o método .agg() com a função F.stddev().

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Import pyspark.sql.functions as F
import ____ as F

# Group by month and dest
by_month_dest = flights.groupBy(____)

# Average departure delay by month and destination
by_month_dest.____.show()

# Standard deviation of departure delay
by_month_dest.agg(F.____(____)).show()
Editar e executar código