Aggregieren in RDDs
Nachdem du Analysen mit DataFrames in PySpark durchgeführt hast, machen wir eine ähnliche Aufgabe kurz mit einem RDD. Verwende den bereitgestellten Code, um die Summe der Werte eines RDD in PySpark zu ermitteln.
Eine Spark-Session namens spark wurde bereits für dich erstellt.
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Erstelle ein RDD aus dem gegebenen DataFrame.
- Wende die bereitgestellte Lambda-Funktion auf die Schlüssel des RDD an.
- Sammle die Ergebnisse der Aggregation ein.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# DataFrame Creation
data = [("HR", "3000"), ("IT", "4000"), ("Finance", "3500")]
columns = ["Department", "Salary"]
df = spark.createDataFrame(data, schema=columns)
# Map the DataFrame to an RDD
rdd = df.rdd.____(lambda row: (row["Department"], row["Salary"]))
# Apply a lambda function to get the sum of the DataFrame
rdd_aggregated = rdd.____(lambda x, y: x + y)
# Show the collected Results
print(rdd_aggregated.____())