LoslegenKostenlos starten

Aggregation in RDDs

Nachdem du mit DataFrames in PySpark Analysen durchgeführt hast, bearbeiten wir nun eine ähnliche Aufgabe mit einem RDD. Verwende den bereitgestellten Code, um die Summe der Werte eines RDD in PySpark zu ermitteln.

Eine Spark-Session mit dem Namen spark wurde bereits für dich erstellt.

Diese Übung ist Teil des Kurses

<Kurs>Einführung in PySpark</Kurs>
Kurs ansehen

Übungsanweisungen

  • Erstelle ein RDD aus dem bereitgestellten DataFrame.
  • Wende die bereitgestellte Lambda-Funktion auf die Schlüssel des RDD an.
  • Sammle die Ergebnisse der Aggregation ein.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# DataFrame Creation
data = [("HR", "3000"), ("IT", "4000"), ("Finance", "3500")]
columns = ["Department", "Salary"]
df = spark.createDataFrame(data, schema=columns)

# Map the DataFrame to an RDD
rdd = df.rdd.____(lambda row: (row["Department"], row["Salary"]))

# Apply a lambda function to get the sum of the DataFrame
rdd_aggregated = rdd.____(lambda x, y: x + y)

# Show the collected Results
print(rdd_aggregated.____())
Code bearbeiten und ausführen