Aggregaties in PySpark
Nu ben je klaar om zelf te aggregeren!
Je gaat een salarisgegevensset gebruiken die je al eerder hebt gezien. Laten we kijken welke aggregaties je kunt maken!
Er staat al een SparkSession met de naam spark in je workspace, samen met de Spark DataFrame salaries_df.
Deze oefening maakt deel uit van de cursus
Introductie tot PySpark
Oefeninstructies
- Zoek het minimumsalaris bij een Amerikaans, klein bedrijf – filter door direct naar de kolom te verwijzen (
"salary_in_usd"), en geef geen SQL-string door. - Zoek het maximumsalaris bij een Amerikaans, groot bedrijf, aangeduid met een
"L"– filter door direct naar de kolom te verwijzen ("salary_in_usd"), en geef geen SQL-string door.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Find the minimum salaries for small companies
salaries_df.filter(salaries_df.company_size == "S").groupBy().____.show()
# Find the maximum salaries for large companies
salaries_df.filter(salaries_df.company_size ____).____().max("salary_in_usd").show()