Um grupo do PySpark

Você já viu como usar a estrutura dask e sua abstração DataFrame para fazer alguns cálculos. No entanto, como você viu no vídeo, no mundo do big data, o Spark é provavelmente uma opção mais popular para o processamento de dados.

Neste exercício, você usará o pacote PySpark para manipular um DataFrame do Spark. Os dados são os mesmos dos exercícios anteriores: participantes de eventos olímpicos entre 1896 e 2016.

O Spark Dataframe, athlete_events_spark, está disponível em seu espaço de trabalho.

Os métodos que você usará neste exercício são:

.printSchema()Ajuda a imprimir o esquema de um Spark DataFrame.
.groupBy()Declaração de agrupamento para uma agregação.
.mean()Você pode usar a média de cada grupo.
.show(): mostrar os resultados.

Descubra o tipo de athlete_events_spark.
Descubra o esquema de athlete_events_spark.
Imprima a idade média dos atletas olímpicos, agrupados por ano. Observe que a faísca ainda não calculou nada de fato. Você pode chamar isso de avaliação preguiçosa.
Pegue o resultado anterior e acesse .show() no resultado para calcular a idade média.

Introdução à engenharia de dados

Caixa de ferramentas de engenharia de dados

Extrair, transformar e carregar (ETL)

Estudo de caso: DataCamp

Exercise

Um grupo do PySpark

Instructions