IniziaInizia gratis

Aggregazioni negli RDD

Ora che hai eseguito analisi con i DataFrame in PySpark, proviamo brevemente un'attività simile con un RDD. Usando il codice fornito, ottieni la somma dei valori di un RDD in PySpark.

È già stata creata per te una sessione Spark chiamata spark.

Questo esercizio fa parte del corso

Introduzione a PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Crea un RDD dal DataFrame fornito.
  • Applica la funzione Lambda fornita alle chiavi dell'RDD.
  • Raccogli i risultati dell'aggregazione.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# DataFrame Creation
data = [("HR", "3000"), ("IT", "4000"), ("Finance", "3500")]
columns = ["Department", "Salary"]
df = spark.createDataFrame(data, schema=columns)

# Map the DataFrame to an RDD
rdd = df.rdd.____(lambda row: (row["Department"], row["Salary"]))

# Apply a lambda function to get the sum of the DataFrame
rdd_aggregated = rdd.____(lambda x, y: x + y)

# Show the collected Results
print(rdd_aggregated.____())
Modifica ed esegui il codice