Esercitarsi con il caching: la SQL
In precedenza abbiamo esaminato due DataFrame: df1 e df2 (creato a partire da df1). Abbiamo provato a mettere in cache df1, ma non df2. In questo esercizio analizzeremo gli effetti di mettere in cache df2, ma non df1.
Anche qui, prendi nota del tempo impiegato da ogni azione. Confronteremo questi tempi nel prossimo esercizio. Quali attività risultano più rapide? Quali invece più lente?
Questo esercizio fa parte del corso
Introduzione a Spark SQL in Python
Istruzioni dell'esercizio
- Metti in cache
df2, ma nondf1. - Esegui una prima azione su
df1e ripetila, poi esegui un'azione sudf2e ripetila. Questo è già stato fatto per te.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Unpersist df1 and df2 and initializes a timer
prep(df1, df2)
# Persist df2 using memory and disk storage level
df2.persist(____)
# Run actions both dataframes
run(df1, "df1_1st")
run(df1, "df1_2nd")
run(df2, "df2_1st")
run(df2, "df2_2nd", elapsed=True)