Aggregation in RDDs
Nachdem du mit DataFrames in PySpark Analysen durchgeführt hast, machen wir das kurz ähnlich mit einem RDD. Verwende den bereitgestellten Code, um die Summe der Werte eines RDD in PySpark zu ermitteln.
Eine Spark-Session mit dem Namen spark wurde bereits für dich erstellt.
Diese Übung ist Teil des Kurses
Einführung in PySpark
Anleitung zur Übung
- Erstelle ein RDD aus dem bereitgestellten DataFrame.
- Wende die bereitgestellte Lambda-Funktion auf die Keys des RDD an.
- Sammle die Ergebnisse der Aggregation ein.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# DataFrame Creation
data = [("HR", "3000"), ("IT", "4000"), ("Finance", "3500")]
columns = ["Department", "Salary"]
df = spark.createDataFrame(data, schema=columns)
# Map the DataFrame to an RDD
rdd = df.rdd.____(lambda row: (row["Department"], row["Salary"]))
# Apply a lambda function to get the sum of the DataFrame
rdd_aggregated = rdd.____(lambda x, y: x + y)
# Show the collected Results
print(rdd_aggregated.____())