CommencerCommencer gratuitement

Agrégations complexes

Pour vous familiariser avec davantage de méthodes d’agrégation intégrées, réalisons une agrégation un peu plus complexe ! L’objectif est de regrouper toutes ces commandes sur une seule ligne.

Rappelez-vous qu’une SparkSession appelée spark est déjà disponible dans votre espace de travail, ainsi que le DataFrame Spark salaries_df.

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Instructions

  • Calculez la moyenne des salaires des grandes entreprises américaines à partir de la colonne "salary_in_usd".
  • Calculez le total des salaires des grandes entreprises américaines.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Average salaries at large us companies
large_companies=salaries_df.filter(salaries_df.company_size == "L").filter(salaries_df.company_location == "US").groupBy().____

#set a large companies variable for other analytics
large_companies=salaries_df.filter(salaries_df.company_size == "L").filter(salaries_df.company_location == "US")

# Total salaries in usd
large_companies.groupBy().____.show()
Modifier et exécuter le code