Aan de slagGa gratis aan de slag

Aggregëren in RDD's

Nu je met DataFrames in PySpark analyses hebt uitgevoerd, doen we kort een vergelijkbare taak met een RDD. Gebruik de meegeleverde code om de som van de waarden van een RDD in PySpark te berekenen.

Er is al een Spark-sessie met de naam spark voor je aangemaakt.

Deze oefening maakt deel uit van de cursus

Introductie tot PySpark

Cursus bekijken

Oefeninstructies

  • Maak een RDD van de meegeleverde DataFrame.
  • Pas de meegeleverde lambda-functie toe op de keys van de RDD.
  • Verzamel de resultaten van de aggregatie.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# DataFrame Creation
data = [("HR", "3000"), ("IT", "4000"), ("Finance", "3500")]
columns = ["Department", "Salary"]
df = spark.createDataFrame(data, schema=columns)

# Map the DataFrame to an RDD
rdd = df.rdd.____(lambda row: (row["Department"], row["Salary"]))

# Apply a lambda function to get the sum of the DataFrame
rdd_aggregated = rdd.____(lambda x, y: x + y)

# Show the collected Results
print(rdd_aggregated.____())
Code bewerken en uitvoeren