Um groupby em PySpark
Você já viu como usar o framework dask e sua abstração de DataFrame para fazer alguns cálculos. Porém, como você viu no vídeo, no mundo de big data o Spark provavelmente é a opção mais popular para processamento de dados.
Neste exercício, você vai usar o pacote PySpark para manipular um DataFrame do Spark. Os dados são os mesmos dos exercícios anteriores: participantes de eventos olímpicos entre 1896 e 2016.
O DataFrame do Spark, athlete_events_spark, está disponível no seu workspace.
Os métodos que você vai usar neste exercício são:
.printSchema(): ajuda a imprimir o schema de um DataFrame do Spark..groupBy(): cláusula de agrupamento para uma agregação..mean(): calcula a média em cada grupo..show(): exibe os resultados.
Este exercício faz parte do curso
Introdução à Engenharia de Dados
Instruções do exercício
- Descubra o tipo de
athlete_events_spark. - Descubra o schema de
athlete_events_spark. - Mostre a idade média dos atletas olímpicos, agrupada por ano. Observe que o Spark ainda não calculou nada. Você pode chamar isso de avaliação preguiçosa (lazy evaluation).
- Pegue o resultado anterior e chame
.show()no resultado para calcular a idade média.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Print the type of athlete_events_spark
print(____(athlete_events_spark))
# Print the schema of athlete_events_spark
print(athlete_events_spark.____())
# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____))
# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____).____())