ComeçarComece gratuitamente

Um grupo do PySpark

Você já viu como usar a estrutura dask e sua abstração DataFrame para fazer alguns cálculos. No entanto, como você viu no vídeo, no mundo do big data, o Spark é provavelmente uma opção mais popular para o processamento de dados.

Neste exercício, você usará o pacote PySpark para manipular um DataFrame do Spark. Os dados são os mesmos dos exercícios anteriores: participantes de eventos olímpicos entre 1896 e 2016.

O Spark Dataframe, athlete_events_spark, está disponível em seu espaço de trabalho.

Os métodos que você usará neste exercício são:

  • .printSchema()Ajuda a imprimir o esquema de um Spark DataFrame.
  • .groupBy()Declaração de agrupamento para uma agregação.
  • .mean()Você pode usar a média de cada grupo.
  • .show(): mostrar os resultados.

Este exercício faz parte do curso

Introdução à engenharia de dados

Ver Curso

Instruções de exercício

  • Descubra o tipo de athlete_events_spark.
  • Descubra o esquema de athlete_events_spark.
  • Imprima a idade média dos atletas olímpicos, agrupados por ano. Observe que a faísca ainda não calculou nada de fato. Você pode chamar isso de avaliação preguiçosa.
  • Pegue o resultado anterior e acesse .show() no resultado para calcular a idade média.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Print the type of athlete_events_spark
print(____(athlete_events_spark))

# Print the schema of athlete_events_spark
print(athlete_events_spark.____())

# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____))

# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____).____())
Editar e executar código