Aggregazioni negli RDD
Ora che hai eseguito analisi con i DataFrame in PySpark, proviamo brevemente un'attività simile con un RDD. Usando il codice fornito, ottieni la somma dei valori di un RDD in PySpark.
È già stata creata per te una sessione Spark chiamata spark.
Questo esercizio fa parte del corso
Introduzione a PySpark
Istruzioni dell'esercizio
- Crea un RDD dal DataFrame fornito.
- Applica la funzione Lambda fornita alle chiavi dell'RDD.
- Raccogli i risultati dell'aggregazione.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# DataFrame Creation
data = [("HR", "3000"), ("IT", "4000"), ("Finance", "3500")]
columns = ["Department", "Salary"]
df = spark.createDataFrame(data, schema=columns)
# Map the DataFrame to an RDD
rdd = df.rdd.____(lambda row: (row["Department"], row["Salary"]))
# Apply a lambda function to get the sum of the DataFrame
rdd_aggregated = rdd.____(lambda x, y: x + y)
# Show the collected Results
print(rdd_aggregated.____())