LoslegenKostenlos loslegen

Aggregationen in PySpark

Jetzt bist du bereit, selbst zu aggregieren! Du verwendest ein Gehalts-Dataset, das du bereits genutzt hast. Schau dir an, welche Aggregationen du erstellen kannst! Eine SparkSession namens spark steht dir bereits zur Verfügung, ebenso wie das Spark DataFrame salaries_df.

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Finde das minimale Gehalt bei einem US-Unternehmen mit der Größe Small – filtere dabei, indem du die Spalte direkt referenzierst ("salary_in_usd"), ohne einen SQL-String zu verwenden.
  • Finde das maximale Gehalt bei einem US-Unternehmen mit der Größe Large, gekennzeichnet durch ein "L" – filtere dabei, indem du die Spalte direkt referenzierst ("salary_in_usd"), ohne einen SQL-String zu verwenden.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Find the minimum salaries for small companies
salaries_df.filter(salaries_df.company_size == "S").groupBy().____.show()

# Find the maximum salaries for large companies
salaries_df.filter(salaries_df.company_size ____).____().max("salary_in_usd").show()
Code bearbeiten und ausführen