Agrégation II
Pour vous familiariser avec d'autres méthodes d'agrégation intégrées, voici quelques exercices supplémentaires impliquant le tableau flights!
Rappelez-vous qu'un site SparkSession appelé spark se trouve déjà dans votre espace de travail, ainsi que le DataFrame Spark flights.
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Utilisez la méthode
.avg()pour obtenir la durée moyenne des vols Delta Airlines (où la colonnecarriera la valeur"DL") qui ont quitté SEA. Le lieu de départ est enregistré dans la colonneorigin.show()le résultat. - Utilisez la méthode
.sum()pour obtenir le nombre total d'heures que tous les avions de cet ensemble de données ont passé dans les airs en créant une colonne appeléeduration_hrsà partir de la colonneair_time.show()le résultat.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()
# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()