IniziaInizia gratis

Mettiamo tutto insieme II

Crea un DataFrame, applica delle trasformazioni, mettilo in cache e verifica che sia effettivamente in cache. Poi rimuovi la cache per liberare memoria. Per questo esercizio è già stata creata una sessione spark! Osserva con attenzione il risultato del metodo .explain() per capire cosa sta succedendo!

Questo esercizio fa parte del corso

Introduzione a PySpark

Visualizza il corso

Istruzioni dell'esercizio

  • Metti in cache il DataFrame df.
  • Spiega l’elaborazione del DataFrame agg_result.
  • Esegui l’unpersist del DataFrame df in cache dopo l’elaborazione.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Cache the DataFrame
df.____

# Perform aggregation
agg_result = df.groupBy("Department").sum("Salary")
agg_result.show()

# Analyze the execution plan
agg_result.____

# Uncache the DataFrame
df.____
Modifica ed esegui il codice