CommencerCommencer gratuitement

Un groupe PySpark

Vous avez vu comment utiliser le cadre dask et son abstraction DataFrame pour effectuer quelques calculs. Cependant, comme vous l'avez vu dans la vidéo, dans le monde du big data, Spark est probablement un choix plus populaire pour le traitement des données.

Dans cet exercice, vous allez utiliser le package Spark pour manipuler un DataFrame de Spark. Les données sont les mêmes que pour les exercices précédents : les participants aux épreuves olympiques entre 1896 et 2016.

Le DataFrame Spark, athlete_events_spark est disponible dans votre espace de travail.

Les méthodes que vous allez utiliser dans cet exercice sont les suivantes :

  • .printSchema(): permet d'imprimer le schéma d'un DataFrame Spark.
  • .groupBy()Déclaration de regroupement : déclaration de regroupement pour une agrégation.
  • .mean()Pour cela, il faut prendre la moyenne de chaque groupe.
  • .show()Les résultats de l'enquête sont présentés dans le tableau ci-dessous.

Cet exercice fait partie du cours

Introduction à l'ingénierie des données

Afficher le cours

Instructions

  • Renseignez-vous sur le type de athlete_events_spark.
  • Découvrez le schéma de athlete_events_spark.
  • Imprimez l'âge moyen des athlètes olympiques, regroupés par année. Remarquez que Spark n'a encore rien calculé. Vous pouvez appeler cela une évaluation paresseuse.
  • Prenez le résultat précédent et appelez .show() sur le résultat pour calculer l'âge moyen.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Print the type of athlete_events_spark
print(____(athlete_events_spark))

# Print the schema of athlete_events_spark
print(athlete_events_spark.____())

# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____))

# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____).____())
Modifier et exécuter le code