Aggregation in RDDs
Nachdem du mit DataFrames in PySpark Analysen durchgeführt hast, bearbeiten wir nun eine ähnliche Aufgabe mit einem RDD. Verwende den bereitgestellten Code, um die Summe der Werte eines RDD in PySpark zu ermitteln.
Eine Spark-Session mit dem Namen spark wurde bereits für dich erstellt.
Diese Übung ist Teil des Kurses
<Kurs>Einführung in PySpark</Kurs>Übungsanweisungen
- Erstelle ein RDD aus dem bereitgestellten DataFrame.
- Wende die bereitgestellte Lambda-Funktion auf die Schlüssel des RDD an.
- Sammle die Ergebnisse der Aggregation ein.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# DataFrame Creation
data = [("HR", "3000"), ("IT", "4000"), ("Finance", "3500")]
columns = ["Department", "Salary"]
df = spark.createDataFrame(data, schema=columns)
# Map the DataFrame to an RDD
rdd = df.rdd.____(lambda row: (row["Department"], row["Salary"]))
# Apply a lambda function to get the sum of the DataFrame
rdd_aggregated = rdd.____(lambda x, y: x + y)
# Show the collected Results
print(rdd_aggregated.____())