Agrégation II
Pour vous familiariser avec d'autres méthodes d'agrégation intégrées, voici quelques exercices supplémentaires impliquant le tableau flights
!
Rappelez-vous qu'un site SparkSession
appelé spark
se trouve déjà dans votre espace de travail, ainsi que le DataFrame Spark flights
.
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Utilisez la méthode
.avg()
pour obtenir la durée moyenne des vols Delta Airlines (où la colonnecarrier
a la valeur"DL"
) qui ont quitté SEA. Le lieu de départ est enregistré dans la colonneorigin
.show()
le résultat. - Utilisez la méthode
.sum()
pour obtenir le nombre total d'heures que tous les avions de cet ensemble de données ont passé dans les airs en créant une colonne appeléeduration_hrs
à partir de la colonneair_time
.show()
le résultat.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()
# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()