Agregação
Todos os métodos de agregação comuns, como .min()
, .max()
e .count()
são métodos GroupedData
. Eles são criados chamando o método .groupBy()
de DataFrames. Você aprenderá exatamente o que isso significa em alguns exercícios. Por enquanto, para usar essas funções, basta chamar esse método com seu DataFrame. Por exemplo: para encontrar o valor mínimo de uma coluna, col
, em um DataFrame, df
, você pode usar:
df.groupBy().min("col").show()
Isso cria um objeto GroupedData
(para que você possa usar o método .min()
) e, em seguida, encontra o valor mínimo de col
e o retorna como um DataFrame.
Agora você está pronto para fazer sua própria agregação!
Uma SparkSession
chamada spark
já está em seu espaço de trabalho, junto com o DataFrame flights
do Spark.
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
- Encontre a duração do voo mais curto (em termos de distância) que partiu de PDX, primeiramente usando
.filter()
para filtrar e utilizando o método.min()
. Faça a filtragem referenciando a coluna diretamente, sem passar uma string SQL. - Encontre a duração do voo mais longo (em termos de tempo) que partiu de SEA usando
filter()
e o método.max()
. Faça a filtragem referenciando a coluna diretamente, sem passar uma string SQL.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Find the shortest flight from PDX in terms of distance
flights.filter(____.____ == ____).groupBy().____(____).show()
# Find the longest flight from SEA in terms of air time
flights.filter(____).groupBy().____.show()