CommencerCommencer gratuitement

Agrégation II

Pour vous familiariser avec d'autres méthodes d'agrégation intégrées, voici quelques exercices supplémentaires impliquant le tableau flights!

Rappelez-vous qu'un site SparkSession appelé spark se trouve déjà dans votre espace de travail, ainsi que le DataFrame Spark flights.

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Instructions

  • Utilisez la méthode .avg() pour obtenir la durée moyenne des vols Delta Airlines (où la colonne carrier a la valeur "DL") qui ont quitté SEA. Le lieu de départ est enregistré dans la colonne origin. show() le résultat.
  • Utilisez la méthode .sum() pour obtenir le nombre total d'heures que tous les avions de cet ensemble de données ont passé dans les airs en créant une colonne appelée duration_hrs à partir de la colonne air_time. show() le résultat.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Average duration of Delta flights
flights.filter(____.____ == "____").filter(____.____ == "____").groupBy().avg("____").show()

# Total hours in the air
flights.withColumn("____", flights.air_time/60).groupBy().sum("____").show()
Modifier et exécuter le code