Agréger avec des RDD
Maintenant que vous avez réalisé des analyses avec des DataFrames en PySpark, voyons rapidement une tâche similaire avec un RDD. À partir du code fourni, obtenez la somme des valeurs d’un RDD en PySpark.
Une session Spark appelée spark a déjà été créée pour vous.
Cet exercice fait partie du cours
Introduction à PySpark
Instructions
- Créez un RDD à partir du DataFrame fourni.
- Appliquez la fonction Lambda fournie aux clés du RDD.
- Collectez les résultats de l’agrégation.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# DataFrame Creation
data = [("HR", "3000"), ("IT", "4000"), ("Finance", "3500")]
columns = ["Department", "Salary"]
df = spark.createDataFrame(data, schema=columns)
# Map the DataFrame to an RDD
rdd = df.rdd.____(lambda row: (row["Department"], row["Salary"]))
# Apply a lambda function to get the sum of the DataFrame
rdd_aggregated = rdd.____(lambda x, y: x + y)
# Show the collected Results
print(rdd_aggregated.____())