CommencerCommencer gratuitement

Agrégations avec PySpark

Vous êtes maintenant prêt à réaliser vos propres agrégations ! Vous allez utiliser un jeu de données sur les salaires déjà employé auparavant. Voyons quelles agrégations vous pouvez créer ! Une SparkSession appelée spark est déjà disponible dans votre espace de travail, ainsi que le DataFrame Spark salaries_df.

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Instructions

  • Trouvez le salaire minimum dans une entreprise américaine de petite taille (« Small ») — appliquez le filtrage en référant la colonne directement ("salary_in_usd"), sans passer une chaîne SQL.
  • Trouvez le salaire maximum dans une grande entreprise américaine, indiquée par "L" — appliquez le filtrage en référant la colonne directement ("salary_in_usd"), sans passer une chaîne SQL.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Find the minimum salaries for small companies
salaries_df.filter(salaries_df.company_size == "S").groupBy().____.show()

# Find the maximum salaries for large companies
salaries_df.filter(salaries_df.company_size ____).____().max("salary_in_usd").show()
Modifier et exécuter le code