Agrégations avec PySpark
Vous êtes maintenant prêt à réaliser vos propres agrégations !
Vous allez utiliser un jeu de données sur les salaires déjà employé auparavant. Voyons quelles agrégations vous pouvez créer !
Une SparkSession appelée spark est déjà disponible dans votre espace de travail, ainsi que le DataFrame Spark salaries_df.
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Trouvez le salaire minimum dans une entreprise américaine de petite taille (« Small ») — appliquez le filtrage en référant la colonne directement (
"salary_in_usd"), sans passer une chaîne SQL. - Trouvez le salaire maximum dans une grande entreprise américaine, indiquée par
"L"— appliquez le filtrage en référant la colonne directement ("salary_in_usd"), sans passer une chaîne SQL.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Find the minimum salaries for small companies
salaries_df.filter(salaries_df.company_size == "S").groupBy().____.show()
# Find the maximum salaries for large companies
salaries_df.filter(salaries_df.company_size ____).____().max("salary_in_usd").show()