Um grupo do PySpark
Você já viu como usar a estrutura dask
e sua abstração DataFrame para fazer alguns cálculos. No entanto, como você viu no vídeo, no mundo do big data, o Spark é provavelmente uma opção mais popular para o processamento de dados.
Neste exercício, você usará o pacote PySpark para manipular um DataFrame do Spark. Os dados são os mesmos dos exercícios anteriores: participantes de eventos olímpicos entre 1896 e 2016.
O Spark Dataframe, athlete_events_spark
, está disponível em seu espaço de trabalho.
Os métodos que você usará neste exercício são:
.printSchema()
Ajuda a imprimir o esquema de um Spark DataFrame..groupBy()
Declaração de agrupamento para uma agregação..mean()
Você pode usar a média de cada grupo..show()
: mostrar os resultados.
Este exercício faz parte do curso
Introdução à engenharia de dados
Instruções de exercício
- Descubra o tipo de
athlete_events_spark
. - Descubra o esquema de
athlete_events_spark
. - Imprima a idade média dos atletas olímpicos, agrupados por ano. Observe que a faísca ainda não calculou nada de fato. Você pode chamar isso de avaliação preguiçosa.
- Pegue o resultado anterior e acesse
.show()
no resultado para calcular a idade média.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Print the type of athlete_events_spark
print(____(athlete_events_spark))
# Print the schema of athlete_events_spark
print(athlete_events_spark.____())
# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____))
# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____).____())