IniziaInizia gratis

Esercitarsi con la cache: parte 1

Nei prossimi esercizi, farai pratica con diversi modi di mettere in cache due DataFrame.

Un dataframe df1 viene caricato da un file CSV. Su di esso vengono eseguiti diversi passaggi di elaborazione. Poiché df1 verrà usato più di una volta, è un buon candidato per la cache.

Un secondo dataframe df2 viene creato eseguendo ulteriori passaggi ad alto consumo computazionale su df1. Anche questo è un candidato per la cache.

Dato che df2 dipende da df1, sorge la domanda: è meglio mettere in cache df1 o df2?

In questo esercizio, proveremo a mettere in cache df1. Prendi nota del tempo impiegato da ogni azione. Confronteremo questi tempi nel prossimo esercizio.

Questo esercizio fa parte del corso

Introduzione a Spark SQL in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Metti in cache solo df1.
  • Esegui una prima azione su df1 e ripetila, poi esegui un'azione su df2 e ripetila. Questo è già stato fatto per te.
  • Verifica se df1 è effettivamente in cache.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Unpersists df1 and df2 and initializes a timer
prep(df1, df2) 

# Cache df1
____

# Run actions on both dataframes
run(df1, "df1_1st") 
run(df1, "df1_2nd")
run(df2, "df2_1st")
run(df2, "df2_2nd", elapsed=True)

# Prove df1 is cached
print(____)
Modifica ed esegui il codice