LoslegenKostenlos starten

RDDs einsammeln

In dieser Übung arbeitest du in PySpark sowohl mit RDDs als auch mit DataFrames. Ziel ist es, Daten zu gruppieren und Aggregationen sowohl mit RDD-Operationen als auch mit DataFrame-Methoden durchzuführen.

Du lädst eine CSV-Datei mit Gehaltsdaten von Mitarbeitenden als RDD in PySpark. Anschließend gruppierst du nach der Erfahrungsstufe und berechnest aus einem DataFrame das maximale Gehalt je Erfahrungsstufe. So siehst du die jeweiligen Stärken beider Datenformate.

Der Datensatz bezieht sich auf Gehälter von Data Scientists – Markttrends zu finden liegt also in deinem Interesse! Wir haben die Daten bereits für dich geladen und normalisiert! Denke daran: In deinem Workspace gibt es bereits eine SparkSession namens spark!

Diese Übung ist Teil des Kurses

<Kurs>Einführung in PySpark</Kurs>
Kurs ansehen

Übungsanweisungen

  • Erstelle ein RDD aus einem DataFrame.
  • Sammle und zeige die Ergebnisse des RDDs und des DataFrames an.
  • Gruppiere nach "experience_level" und berechne das maximale Gehalt je Stufe.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Create an RDD from the df_salaries
rdd_salaries = df_salaries.____

# Collect and print the results
print(rdd_salaries.____)

# Group by the experience level and calculate the maximum salary
dataframe_results = df_salaries.____("experience_level").____({"salary_in_usd": 'max'})

# Show the results
dataframe_results.____
Code bearbeiten und ausführen