Esercitarsi con la cache: parte 1
Nei prossimi esercizi, farai pratica con diversi modi di mettere in cache due DataFrame.
Un dataframe df1 viene caricato da un file CSV. Su di esso vengono eseguiti diversi passaggi di elaborazione. Poiché df1 verrà usato più di una volta, è un buon candidato per la cache.
Un secondo dataframe df2 viene creato eseguendo ulteriori passaggi ad alto consumo computazionale su df1. Anche questo è un candidato per la cache.
Dato che df2 dipende da df1, sorge la domanda: è meglio mettere in cache df1 o df2?
In questo esercizio, proveremo a mettere in cache df1. Prendi nota del tempo impiegato da ogni azione. Confronteremo questi tempi nel prossimo esercizio.
Questo esercizio fa parte del corso
Introduzione a Spark SQL in Python
Istruzioni dell'esercizio
- Metti in cache solo
df1. - Esegui una prima azione su
df1e ripetila, poi esegui un'azione sudf2e ripetila. Questo è già stato fatto per te. - Verifica se
df1è effettivamente in cache.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Unpersists df1 and df2 and initializes a timer
prep(df1, df2)
# Cache df1
____
# Run actions on both dataframes
run(df1, "df1_1st")
run(df1, "df1_2nd")
run(df2, "df2_1st")
run(df2, "df2_2nd", elapsed=True)
# Prove df1 is cached
print(____)