ComeçarComece de graça

Agregação

Todos os métodos de agregação comuns, como .min(), .max() e .count() são métodos GroupedData. Eles são criados chamando o método .groupBy() de DataFrames. Você aprenderá exatamente o que isso significa em alguns exercícios. Por enquanto, para usar essas funções, basta chamar esse método com seu DataFrame. Por exemplo: para encontrar o valor mínimo de uma coluna, col, em um DataFrame, df, você pode usar:

df.groupBy().min("col").show()

Isso cria um objeto GroupedData (para que você possa usar o método .min() ) e, em seguida, encontra o valor mínimo de col e o retorna como um DataFrame.

Agora você está pronto para fazer sua própria agregação!

Uma SparkSession chamada spark já está em seu espaço de trabalho, junto com o DataFrame flights do Spark.

Este exercício faz parte do curso

Introdução ao PySpark

Ver curso

Instruções do exercício

  • Encontre a duração do voo mais curto (em termos de distância) que partiu de PDX, primeiramente usando .filter() para filtrar e utilizando o método .min(). Faça a filtragem referenciando a coluna diretamente, sem passar uma string SQL.
  • Encontre a duração do voo mais longo (em termos de tempo) que partiu de SEA usando filter() e o método .max(). Faça a filtragem referenciando a coluna diretamente, sem passar uma string SQL.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Find the shortest flight from PDX in terms of distance
flights.filter(____.____ == ____).groupBy().____(____).show()

# Find the longest flight from SEA in terms of air time
flights.filter(____).groupBy().____.show()
Editar e executar o código