Aggregëren in RDD's
Nu je met DataFrames in PySpark analyses hebt uitgevoerd, doen we kort een vergelijkbare taak met een RDD. Gebruik de meegeleverde code om de som van de waarden van een RDD in PySpark te berekenen.
Er is al een Spark-sessie met de naam spark voor je aangemaakt.
Deze oefening maakt deel uit van de cursus
Introductie tot PySpark
Oefeninstructies
- Maak een RDD van de meegeleverde DataFrame.
- Pas de meegeleverde lambda-functie toe op de keys van de RDD.
- Verzamel de resultaten van de aggregatie.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# DataFrame Creation
data = [("HR", "3000"), ("IT", "4000"), ("Finance", "3500")]
columns = ["Department", "Salary"]
df = spark.createDataFrame(data, schema=columns)
# Map the DataFrame to an RDD
rdd = df.rdd.____(lambda row: (row["Department"], row["Salary"]))
# Apply a lambda function to get the sum of the DataFrame
rdd_aggregated = rdd.____(lambda x, y: x + y)
# Show the collected Results
print(rdd_aggregated.____())