Agrégation

Toutes les méthodes d'agrégation courantes, telles que .min(), .max(), et .count() sont des méthodes GroupedData. Ceux-ci sont créés en appelant la méthode .groupBy() DataFrame. Vous apprendrez exactement ce que cela signifie dans quelques exercices. Pour l'instant, tout ce que vous avez à faire pour utiliser ces fonctions est d'appeler cette méthode sur votre DataFrame. Par exemple, pour trouver la valeur minimale d'une colonne, col, dans un DataFrame, df, vous pouvez procéder comme suit

df.groupBy().min("col").show()

Cette méthode crée un objet GroupedData (afin que vous puissiez utiliser la méthode .min() ), trouve la valeur minimale dans col et la renvoie sous la forme d'un DataFrame.

Vous êtes maintenant prêt à faire vos propres agrégations !

Un site SparkSession appelé spark se trouve déjà dans votre espace de travail, ainsi que le DataFrame Spark flights.

Cet exercice fait partie du cours

<cours>Introduction à PySpark</cours>

Voir le cours

Instructions de l’exercice

Trouvez la longueur du vol le plus court (en termes de distance) qui a quitté PDX en commençant par .filter()et en utilisant la méthode .min(). Effectuez le filtrage en référençant directement la colonne, sans passer par une chaîne SQL.
Trouvez la durée du vol le plus long (en termes de temps) qui a quitté SEA en filter()ing et en utilisant la méthode .max(). Effectuez le filtrage en référençant directement la colonne, sans passer par une chaîne SQL.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Find the shortest flight from PDX in terms of distance
flights.filter(____.____ == ____).groupBy().____(____).show()

# Find the longest flight from SEA in terms of air time
flights.filter(____).groupBy().____.show()

Modifier et exécuter le code