Agrégation
Toutes les méthodes d'agrégation courantes, telles que .min()
, .max()
, et .count()
sont des méthodes GroupedData
. Ceux-ci sont créés en appelant la méthode .groupBy()
DataFrame. Vous apprendrez exactement ce que cela signifie dans quelques exercices. Pour l'instant, tout ce que vous avez à faire pour utiliser ces fonctions est d'appeler cette méthode sur votre DataFrame. Par exemple, pour trouver la valeur minimale d'une colonne, col
, dans un DataFrame, df
, vous pouvez procéder comme suit
df.groupBy().min("col").show()
Cette méthode crée un objet GroupedData
(afin que vous puissiez utiliser la méthode .min()
), trouve la valeur minimale dans col
et la renvoie sous la forme d'un DataFrame.
Vous êtes maintenant prêt à faire vos propres agrégations !
Un site SparkSession
appelé spark
se trouve déjà dans votre espace de travail, ainsi que le DataFrame Spark flights
.
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Trouvez la longueur du vol le plus court (en termes de distance) qui a quitté PDX en commençant par
.filter()
et en utilisant la méthode.min()
. Effectuez le filtrage en référençant directement la colonne, sans passer par une chaîne SQL. - Trouvez la durée du vol le plus long (en termes de temps) qui a quitté SEA en
filter()
ing et en utilisant la méthode.max()
. Effectuez le filtrage en référençant directement la colonne, sans passer par une chaîne SQL.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Find the shortest flight from PDX in terms of distance
flights.filter(____.____ == ____).groupBy().____(____).show()
# Find the longest flight from SEA in terms of air time
flights.filter(____).groupBy().____.show()