Aan de slagGa gratis aan de slag

Aggregaties in PySpark

Nu ben je klaar om zelf te aggregeren! Je gaat een salarisgegevensset gebruiken die je al eerder hebt gezien. Laten we kijken welke aggregaties je kunt maken! Er staat al een SparkSession met de naam spark in je workspace, samen met de Spark DataFrame salaries_df.

Deze oefening maakt deel uit van de cursus

Introductie tot PySpark

Cursus bekijken

Oefeninstructies

  • Zoek het minimumsalaris bij een Amerikaans, klein bedrijf – filter door direct naar de kolom te verwijzen ("salary_in_usd"), en geef geen SQL-string door.
  • Zoek het maximumsalaris bij een Amerikaans, groot bedrijf, aangeduid met een "L" – filter door direct naar de kolom te verwijzen ("salary_in_usd"), en geef geen SQL-string door.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Find the minimum salaries for small companies
salaries_df.filter(salaries_df.company_size == "S").groupBy().____.show()

# Find the maximum salaries for large companies
salaries_df.filter(salaries_df.company_size ____).____().max("salary_in_usd").show()
Code bewerken en uitvoeren