LoslegenKostenlos loslegen

RDDs sammeln

In dieser Übung arbeitest du in PySpark sowohl mit RDDs als auch mit DataFrames. Ziel ist es, Daten zu gruppieren und Aggregationen sowohl mit RDD-Operationen als auch mit DataFrame-Methoden durchzuführen.

Du lädst eine CSV-Datei mit Gehaltsdaten von Mitarbeitenden als RDD in PySpark. Anschließend gruppierst du nach dem Erfahrungslevel und berechnest das maximale Gehalt für jedes Erfahrungslevel aus einem DataFrame. So siehst du die jeweiligen Stärken beider Datenformate.

Der Datensatz betrifft Gehälter von Data Scientists – Markttrends zu finden liegt also in deinem Interesse! Wir haben die Daten bereits für dich geladen und normalisiert! Denk daran: In deinem Workspace gibt es bereits eine SparkSession namens spark!

Diese Übung ist Teil des Kurses

Einführung in PySpark

Kurs anzeigen

Anleitung zur Übung

  • Erstelle ein RDD aus einem DataFrame.
  • Sammle und zeige die Ergebnisse des RDD und des DataFrames an.
  • Gruppiere nach "experience_level" und berechne das maximale Gehalt für jedes Level.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Create an RDD from the df_salaries
rdd_salaries = df_salaries.____

# Collect and print the results
print(rdd_salaries.____)

# Group by the experience level and calculate the maximum salary
dataframe_results = df_salaries.____("experience_level").____({"salary_in_usd": 'max'})

# Show the results
dataframe_results.____
Code bearbeiten und ausführen