Mettiamo tutto insieme II
Crea un DataFrame, applica delle trasformazioni, mettilo in cache e verifica che sia effettivamente in cache. Poi rimuovi la cache per liberare memoria.
Per questo esercizio è già stata creata una sessione spark! Osserva con attenzione il risultato del metodo .explain() per capire cosa sta succedendo!
Questo esercizio fa parte del corso
Introduzione a PySpark
Istruzioni dell'esercizio
- Metti in cache il DataFrame
df. - Spiega l’elaborazione del DataFrame
agg_result. - Esegui l’unpersist del DataFrame
dfin cache dopo l’elaborazione.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Cache the DataFrame
df.____
# Perform aggregation
agg_result = df.groupBy("Department").sum("Salary")
agg_result.show()
# Analyze the execution plan
agg_result.____
# Uncache the DataFrame
df.____