CommencerCommencer gratuitement

Agréger avec des RDD

Maintenant que vous avez réalisé des analyses avec des DataFrames en PySpark, voyons rapidement une tâche similaire avec un RDD. À partir du code fourni, obtenez la somme des valeurs d’un RDD en PySpark.

Une session Spark appelée spark a déjà été créée pour vous.

Cet exercice fait partie du cours

Introduction à PySpark

Afficher le cours

Instructions

  • Créez un RDD à partir du DataFrame fourni.
  • Appliquez la fonction Lambda fournie aux clés du RDD.
  • Collectez les résultats de l’agrégation.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# DataFrame Creation
data = [("HR", "3000"), ("IT", "4000"), ("Finance", "3500")]
columns = ["Department", "Salary"]
df = spark.createDataFrame(data, schema=columns)

# Map the DataFrame to an RDD
rdd = df.rdd.____(lambda row: (row["Department"], row["Salary"]))

# Apply a lambda function to get the sum of the DataFrame
rdd_aggregated = rdd.____(lambda x, y: x + y)

# Show the collected Results
print(rdd_aggregated.____())
Modifier et exécuter le code