LoslegenKostenlos starten

Aggregationen in PySpark

Jetzt bist du bereit, eigene Aggregationen durchzuführen! Du verwendest einen Gehalts-Datensatz, den du bereits benutzt hast. Schauen wir, welche Aggregationen du erstellen kannst! Eine SparkSession namens spark ist bereits in deinem Workspace vorhanden, zusammen mit dem Spark DataFrame salaries_df.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in PySpark</Kurs>
Kurs ansehen

Übungsanweisungen

  • Finde das niedrigste Gehalt bei einem US-Unternehmen der Größe „Small“ – filtere, indem du die Spalte direkt referenzierst ("salary_in_usd"), ohne einen SQL-String zu übergeben.
  • Finde das höchste Gehalt bei einem US-Unternehmen der Größe „Large“, gekennzeichnet durch ein "L" – filtere, indem du die Spalte direkt referenzierst ("salary_in_usd"), ohne einen SQL-String zu übergeben.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Find the minimum salaries for small companies
salaries_df.filter(salaries_df.company_size == "S").groupBy().____.show()

# Find the maximum salaries for large companies
salaries_df.filter(salaries_df.company_size ____).____().max("salary_in_usd").show()
Code bearbeiten und ausführen