ComeçarComece de graça

Um groupby em PySpark

Você já viu como usar o framework dask e sua abstração de DataFrame para fazer alguns cálculos. Porém, como você viu no vídeo, no mundo de big data o Spark provavelmente é a opção mais popular para processamento de dados.

Neste exercício, você vai usar o pacote PySpark para manipular um DataFrame do Spark. Os dados são os mesmos dos exercícios anteriores: participantes de eventos olímpicos entre 1896 e 2016.

O DataFrame do Spark, athlete_events_spark, está disponível no seu workspace.

Os métodos que você vai usar neste exercício são:

  • .printSchema(): ajuda a imprimir o schema de um DataFrame do Spark.
  • .groupBy(): cláusula de agrupamento para uma agregação.
  • .mean(): calcula a média em cada grupo.
  • .show(): exibe os resultados.

Este exercício faz parte do curso

Introdução à Engenharia de Dados

Ver curso

Instruções do exercício

  • Descubra o tipo de athlete_events_spark.
  • Descubra o schema de athlete_events_spark.
  • Mostre a idade média dos atletas olímpicos, agrupada por ano. Observe que o Spark ainda não calculou nada. Você pode chamar isso de avaliação preguiçosa (lazy evaluation).
  • Pegue o resultado anterior e chame .show() no resultado para calcular a idade média.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Print the type of athlete_events_spark
print(____(athlete_events_spark))

# Print the schema of athlete_events_spark
print(athlete_events_spark.____())

# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____))

# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____).____())
Editar e executar o código