Un groupby en PySpark

Vous avez vu comment utiliser le framework dask et son abstraction DataFrame pour effectuer des calculs. Cependant, comme vous l’avez vu dans la vidéo, dans le monde du big data, Spark est probablement un choix plus populaire pour le traitement des données.

Dans cet exercice, vous allez utiliser le package PySpark pour manipuler un DataFrame Spark. Les données sont les mêmes que dans les exercices précédents : les participant·e·s aux épreuves olympiques entre 1896 et 2016.

Le DataFrame Spark, athlete_events_spark, est disponible dans votre espace de travail.

Les méthodes que vous allez utiliser dans cet exercice sont :

.printSchema() : permet d’afficher le schéma d’un DataFrame Spark.
.groupBy() : instruction de regroupement pour une agrégation.
.mean() : calcule la moyenne pour chaque groupe.
.show() : affiche les résultats.

Cet exercice fait partie du cours

Introduction au data engineering

Afficher le cours

Instructions

Déterminez le type de athlete_events_spark.
Affichez le schéma de athlete_events_spark.
Affichez l’âge moyen des athlètes olympiques, regroupé par année. Remarquez que Spark n’a encore rien calculé. On parle d’« évaluation paresseuse » (lazy evaluation).
Reprenez le résultat précédent et appelez .show() dessus pour calculer la moyenne d’âge.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Print the type of athlete_events_spark
print(____(athlete_events_spark))

# Print the schema of athlete_events_spark
print(athlete_events_spark.____())

# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____))

# Group by the Year, and find the mean Age
print(athlete_events_spark.____('Year').mean(____).____())

Modifier et exécuter le code

Cet exercice fait partie du cours

Introduction au data engineering

IntermédiaireNiveau de compétence

4.8+

Commencer le cours gratuitement

Dans ce premier chapitre, vous découvrirez le monde du data engineering ! Explorez les différences entre un data engineer et un data scientist, obtenez une vue d’ensemble des divers outils utilisés par les data engineers et approfondissez votre compréhension du rôle du cloud dans le data engineering.

Exercise 1: Qu’est-ce que l’ingénierie des données ?Exercise 2: Tâches de l’ingénieur·e data Exercise 3: Ingénieur·e data ou data scientist ?Exercise 4: Problèmes d’ingénierie des données Exercise 5: Les outils du data engineer Exercise 6: Types de bases de données Exercise 7: Traitement des tâches Exercise 8: Outils d’ordonnancement Exercise 9: Fournisseurs cloud Exercise 10: Pourquoi l’informatique en nuage ?Exercise 11: Les grands acteurs du cloud computing Exercise 12: Services cloud

Maintenant que vous connaissez les principales différences entre un data engineer et un data scientist, préparez-vous à explorer la boîte à outils du data engineer ! Apprenez en détail les différents types de bases de données utilisées, en quoi le calcul parallèle est une pierre angulaire de l’arsenal du data engineer, et comment planifier des traitements de données à l’aide de frameworks de planification.

Exercise 1: Bases de données Exercise 2: SQL vs NoSQL Exercise 3: Le schéma de base de données Exercise 4: Joindre des relations Exercise 5: Diagramme de schéma en étoile Exercise 6: Qu’est-ce que le calcul parallèle Exercise 7: Pourquoi le calcul parallèle ?Exercise 8: D’une tâche à des sous-tâches Exercise 9: Utiliser un DataFrame Exercise 10: Cadres de calcul parallèle Exercise 11: Spark, Hadoop et Hive Exercise 12: Un groupby en PySpark

Exercice en cours

Exercise 13: Exécuter des fichiers PySpark Exercise 14: Frameworks d’ordonnancement de workflows Exercise 15: Airflow, Luigi et cron Exercise 16: DAGs Airflow

Après avoir découvert la boîte à outils des data engineers, il est temps de passer au cœur de leur flux de travail ! Avec l’ETL, vous apprendrez à extraire des données brutes depuis diverses sources, à transformer ces données en insights exploitables, puis à les charger dans des bases de données pertinentes, prêtes à l’usage.

Exercise 1: Extraction Exercise 2: Sources de données Exercise 3: Récupérer depuis une API Exercise 4: Lire depuis une base de données Exercise 5: Transformer Exercise 6: Découper le prix de location Exercise 7: Préparer les transformations Exercise 8: Jointure avec les évaluations Exercise 9: Chargement Exercise 10: OLAP ou OLTP Exercise 11: Écrire dans un fichier Exercise 12: Charger dans Postgres Exercise 13: Rassembler tous les éléments Exercise 14: Définir un DAG Exercise 15: Configuration d’Airflow Exercise 16: Interpréter le DAG

Consolidez tout ce que vous avez appris dans les trois chapitres précédents en réalisant un cas d’usage réel issu de DataCamp ! Vous exécuterez et planifierez un processus ETL qui transforme des évaluations de cours brutes en recommandations de cours exploitables pour les apprenant·e·s de DataCamp.

Exercise 1: Notes des cours Exercise 2: Explorer le schéma Exercise 3: Interroger la table Exercise 4: Note moyenne par cours Exercise 5: Des évaluations aux recommandations Exercise 6: Filtrer les données corrompues Exercise 7: Utiliser la transformation de recommandation Exercise 8: Planifier des tâches quotidiennes Exercise 9: La table cible Exercise 10: Définir le DAG Exercise 11: Activer le DAG Exercise 12: Interroger les recommandations Exercise 13: Félicitations